华为不用VLA(视觉-语言-动作模型)是因为其认为VLA不是实现真正自动驾驶的终极方案,而WA(世界行为模型)才是更合适的技术路线。具体原因如下:决策速度与安全性:WA能够把感知、预测、决策、规划整合到同一个模型框架里,减少环节割裂,决策速度更快。例如在高速公路突发并线场景中,WA的决策响应速度约100毫秒,而VLA为近200毫秒。同时,WA对雷达感知数据和视频影像可以直接进行融合处理,比VLA能更完整保存和识别数据细节。在雨雾天气场景下,WA对150米外静止车辆的识别准确率比VLA高约37%,安全性更高。对未知场景的应对能力:VLA依赖海量视频数据训练,模仿人类驾驶行为,但遇到没见过的场景,如突然冲出来的小孩、路边滚来的轮胎等,可能会不知所措。而WA是要让车理解物理世界,它不只要学会怎么开,更要搞懂为什么这么开,能结合各种因素判断并做出决策,更好地应对未知场景。技术架构特点:VLA是把视频转化成语言的token进行训练,再变成action控制车的运动轨迹。而WA直接通过vision等信息输入实现控车,无需把各种信息转成语言再通过语言大模型来控制车,这样可以减少环节,更符合自动驾驶的需求。华为的WEWA架构,由云端世界引擎(WE)和车端世界行为模型(WA)两部分组成,WE可通过扩散生成模型模拟极端场景,WA采用MoE架构,实现全模态感知与精准场景调用。企业战略与研发理念:华为更愿意尝试WA这个目前看起来很难,但在他们看来更能实现真正自动驾驶的技术方案。华为智能汽车解决方案BU首席执行官靳玉志表示,华为坚持长期主义战略眼光,不追求短期的商业化效果,愿意投入大量资源进行研发,以打造真正可靠的自动驾驶产品。
|
|