一、技术定位:为何需要 “基于模型的端到端强化学习”?
在真实驾驶场景中,智驾系统常面临感知信息不完整(如阳光致盲、遮挡)、环境不可预测(突发变道、行人横穿)等问题。传统端到端模型依赖实时视觉观察与高清地图,泛化性差;而基于模型的模仿学习(MILE) 作为创新强化学习架构,通过 “离线训练学习世界模型 + 在线想象预测规划”,实现无需高清地图、可应对临时感知缺失的自动驾驶,核心是让智驾系统具备人类 “常规认知” 与 “环境预判” 能力。
Wayve 等企业已通过 CARLA 模拟数据验证:MILE 可通过 “泛化推理算法” 想象未来行驶环境,在环岛通行、避让摩托车手等复杂场景中,即使短时间无视觉输入,仍能输出安全驾驶策略。
二、核心技术:MILE 策略的三大关键模块
1. 3D 场景表示:突破视觉感知局限
MILE 以 “3D 几何” 为归纳偏差,解决单目相机对空间理解不足的问题,核心步骤分三步:
图像特征 3D 提升:通过图像编码器提取特征,结合深度概率分布(预定义深度箱)、相机内外参,将 2D 像素特征转换为 3D 相机坐标;再通过刚体运动矩阵(以自车惯性中心为原点)转换为 3D 车辆坐标,剔除不匹配点;
BeV 空间聚合:将 3D 特征体素映射到预定义鸟瞰图(BeV)网格,压缩为统一维度特征;
多源特征融合:串联图像 BeV 特征、路线图编码(轻量化灰度图指示导航方向)、速度编码(当前车速经全连接层处理),形成低维观察嵌入向量(维度通常为 512),为后续建模提供紧凑输入。
2. 世界模型:建模静态环境与动态代理
世界模型是 MILE 的 “认知核心”,通过离线专家数据(视频帧序列 o₁:T、专家动作 a₁:T、BeV 语义标签 y₁:T),学习环境演化规律与自车行为逻辑,核心包含:
潜在动态建模:引入 “确定性历史 hₜ+₁=fᵨ(hₜ,sₜ)” 与 “随机状态 sₜ+₁~N (μᵨ(hₜ+₁,aₜ),σᵨ(hₜ+₁,aₜ) I)”,其中 fᵨ为门控循环单元(GRU),μᵨ/σᵨ为多层感知器(MLP),实现对 “过去 - 未来” 状态转换的概率建模;
多输出预测:通过解码器输出三类关键信息 —— 图像解码器 gᵨ预测下一帧视觉观察、BeV 解码器 lᵨ输出语义分割(用于可视化与监督)、策略 πᵨ生成自车控制指令(如转向、油门);
观察丢失训练:训练时以概率 pdrop 随机丢弃后验状态(模拟感知缺失),迫使模型依赖历史信息优化长期预测,提升鲁棒性。
3. 推理网络:实现 “想象 - 规划” 闭环
推理网络的目标是基于观测数据推断潜在动态(h₁:T,s₁:T),核心分两部分:
观测编码与后验估计:观测编码器 e_φ 将图像、路线图、速度数据嵌入低维向量 xₜ,后验网络 (μ_φ,σ_φ) 估计随机状态后验分布 q (sₜ|o≤t,a<t)~N (μ_φ(hₜ,aₜ₋₁,xₜ),σ_φ(hₜ,aₜ₋₁,xₜ) I);
先验 - 后验对齐:生成网络通过先验分布 p (sₜ|hₜ₋₁,sₜ₋₁) 匹配后验分布,最小化 KL 散度(衡量信息丢失),确保模型预测能解释真实观察与动作;
未来预测闭环:推理时通过循环神经网络(RNN)维护历史状态,基于先验策略 πᵨ预测未来动作 â_T+i,迭代生成未来状态 h_T+i+1 与 s_T+i+1,实现 “想象规划→动作执行→状态更新” 的闭环,无需实时视觉输入即可完成复杂驾驶操作。
三、实践优势与局限
1. 核心优势
无高清地图依赖:通过 3D 场景表示与世界模型,仅用摄像头数据即可建模环境,降低对高精度地图的依赖;
应对感知缺失:在阳光眩光、临时遮挡等场景,可通过 “想象模式” 预测未来状态,维持安全驾驶;
样本效率高:离线训练即可学习世界模型与策略,无需大量在线交互,降低实车测试成本;
可解释性强:未来状态与动作可通过 BeV 解码器可视化,便于分析策略合理性(如变道时机、跟车距离)。
2. 现存局限
依赖 BeV 标签监督:训练需大量 BeV 语义分割标签,自监督能力不足;
奖励函数未显式建模:当前依赖专家演示学习策略,未从数据中推断驾驶奖励(如 “安全距离”“通行效率” 的量化);
极端场景泛化待提升:对暴雨、积雪等恶劣天气,3D 特征提取精度与状态预测准确性需进一步优化。
四、总结与未来方向
MILE 通过 “3D 几何建模 + 世界模型 + 想象推理”,打破了传统端到端模型 “重实时感知、轻环境预判” 的局限,为无高清地图自动驾驶提供了可行路径。未来需重点突破三方面:
强化自监督学习,减少对 BeV 标签的依赖;
从专家数据中自动推断驾驶奖励函数,优化规划合理性;
融合多传感器(如雷达、激光雷达)数据,提升极端场景下的 3D 建模精度,推动技术从模拟场景向真实城市场景落地。



