Apollo Lite两周年:纯视觉L4级无人驾驶技术挑战复杂城市场景
为什么是视觉方案?
以 Waymo 为代表的Robotaxi阵营,选择用相对昂贵的 旋转式激光雷达 辅以多路摄像头和毫米波雷达直接落地 L4级自动驾驶。
以 Tesla 为代表的渐进式阵营,志在依托 海量数据和深度学习 从辅助驾驶起步跨越无人鸿沟,纯视觉方案是 兼顾驾驶体验和成本 的产品最优解。
激光雷达—拥抱生态
Waymo 推出其第五代自动驾驶传感器套件。Cruise、Argo、Aurora等头部公司也通过「收购+自研」布局未来的激光雷达产品。
百度明确走 开放 道路,相信拥有 大规模用户 和 成熟供应链体系 的生态合作伙伴必将迭代出性价比更优的产品。
选择自由—拿到视觉船票
重度依赖激光雷达的感知系统面临的问题之一便是 雷达技术的更新换代。基于三维点云的环境感知算法对 标注数据的累积 更加倚重,传感器数据变更后给现有感知模型的复用和泛化带来的挑战,前期构筑的数据壁垒优势也难以保持。
视觉成像技术的发展趋势清晰,视觉感知在 数据标注、数据复用和模型泛化 技术上都更加成熟可控。
冗余—做正确的事
起跑阶段,从快速解决问题的目标出发设计融合策略,代价是系统实现维护难度的增加和对安全问题自身可解释性的忽视。
多套能够支撑自动驾驶的感知系统独立工作相互校验,融合端减少策略深度耦合引入的数据依赖与人为假设。
视觉感知追求 独当一面的全栈能力。
Apollo Lite两周年画像
具备仅使用 10颗摄像头 应对中国复杂城市道路环境的自动驾驶能力。
纯视觉感知方案有多难?
三维世界经 投影变换(Projective transformation) 被“压缩”到二维相平面上,成像过程中场景“深度”(景深)信息丢失了。
当算法再试图从二维图像中恢复目标物体原本在三维空间中所处的位置时,面对的是一个 欠约束的“逆问题”(ill-posed inverse problem)。
Apollo Lite视觉感知技术揭秘
2D-to-3D难题
传统算法计算2D检测框的框底中心后通过道路平面假设和几何推理物体深度信息。

Apollo Lite延续「模型学习+几何推理」框架同时对方法细节进行了大量打磨升级。
模型学习
通过从安装 相同摄像头(Camera configuration) 并配备 高线数激光雷达 的百度 L4 自动驾驶车队获取海量时空对齐的 图像+点云 数据,训练阶段 DNN(Deep neural networks)网络模型 从图像appearance信息做障碍物端到端的 三维属性预测。
针对 不同位置/朝向相机 的安装观测特性,模型从学习障 碍物矩形包围框 拓展到预测 更多维度更细粒度的特征,如车轮和车底接地轮廓线。
几何推理
几何推理的作用是通过 场景先验和视觉几何原理 对模型输出的障碍物3D初值进行优化,以此得到2D-to-3D的精确结果。
通过学习道路上线状特征如车道线和马路边沿,拟合出多条空间中的平行线在图像投影上的交点 — 消失点(Vanishing point),基于透视几何原理,可精确估计车辆行驶中 相机俯仰角 的实时变化的情况。

通过归纳构建维护了一个种类丰富的 车辆模板库(类型x尺寸),模型学习的类型和尺寸信息结合模板库搜索为障碍物尺寸初值提供了有效约束。

场景语义理解
动态语义识别
- 检测场景中出现的各类临时 红绿灯
- 倒计时、转向灯、灯色闪烁模式、故障灯 语义等场景理解能力

可通行性推理
在 观测量不完全或者摄像头成像不理想 情况下,结合车身周边障碍物运动信息提取 车流轨迹,配合对路口其它高置信可见灯的状态和语义分析,通过 融合多路信息 学习路口可通行性,预测灯色。
数据驱动的迭代模式
阶段Ⅰ
主力是已在某领域经过长期系统化训练的 算法专家,用计算机语言将掌握的 专业知识 转化为 功能性确定的代码。
Traditional Machine Learning 方法如 SVM 和 Random Forest 等开始利用数据解决问题,对 特征设计 依赖强。
阶段Ⅱ
研发主力为有经验的 深度学习专家,核心工作:
1)根据任务制定 标注规则,提出 数据采集 标注需求,完成 网络结构 选择或设计,训练并部署复杂的深度学习模型; 2)压缩模型 以减小对于计算时间和空间的消耗。
阶段Ⅲ
技术团队工作的重心转入对 数据链路 的精细化管理、对 数据多样性和数据分布合理性 的深耕以及对 数据平台化能力 的建设上。
基于 Cross checking 原理,每一环节都能够通过 观测量间的自洽性 判断精准定位线上模型的潜在缺陷,发掘长尾数据,通过logging标签自动映射数据和对应的模型任务。
一部分任务进入了 依靠单纯灌入数据已无法维持收益增长 的阶段,此时研发人员需重新审视数据链条上的环节,从阶段Ⅲ退回到阶段Ⅱ,回归到对标注规则的研究或新的网络结构设计这些偏基础的工作中。
