大火的VLA，为什么华为不用？

xinwen.mobi · 发表于 2025-9-23 18:05:29

华为不用VLA（视觉-语言-动作模型）是因为其认为VLA不是实现真正自动驾驶的终极方案，而WA（世界行为模型）才是更合适的技术路线。具体原因如下：决策速度与安全性：WA能够把感知、预测、决策、规划整合到同一个模型框架里，减少环节割裂，决策速度更快。例如在高速公路突发并线场景中，WA的决策响应速度约100毫秒，而VLA为近200毫秒。同时，WA对雷达感知数据和视频影像可以直接进行融合处理，比VLA能更完整保存和识别数据细节。在雨雾天气场景下，WA对150米外静止车辆的识别准确率比VLA高约37%，安全性更高。对未知场景的应对能力：VLA依赖海量视频数据训练，模仿人类驾驶行为，但遇到没见过的场景，如突然冲出来的小孩、路边滚来的轮胎等，可能会不知所措。而WA是要让车理解物理世界，它不只要学会怎么开，更要搞懂为什么这么开，能结合各种因素判断并做出决策，更好地应对未知场景。技术架构特点：VLA是把视频转化成语言的token进行训练，再变成action控制车的运动轨迹。而WA直接通过vision等信息输入实现控车，无需把各种信息转成语言再通过语言大模型来控制车，这样可以减少环节，更符合自动驾驶的需求。华为的WEWA架构，由云端世界引擎（WE）和车端世界行为模型（WA）两部分组成，WE可通过扩散生成模型模拟极端场景，WA采用MoE架构，实现全模态感知与精准场景调用。企业战略与研发理念：华为更愿意尝试WA这个目前看起来很难，但在他们看来更能实现真正自动驾驶的技术方案。华为智能汽车解决方案BU首席执行官靳玉志表示，华为坚持长期主义战略眼光，不追求短期的商业化效果，愿意投入大量资源进行研发，以打造真正可靠的自动驾驶产品。

		自动登录	找回密码
密码			立即注册

大火的VLA，为什么华为不用？

大火的VLA，为什么华为不用？

相关帖子