押注VLA! 李想谈智驾: 行业已进入黎明前的黑暗

来源：广州日报 2025-05-09 06:36:23

大字

2024年底，理想汽车CEO李想在理想AI Talk第一季上表示，基座模型到一定时刻，一定会变成VLA（视觉语言行动模型）。2024年10月，理想汽车才开始推送端到端+VLM（视觉语言模型）智驾方案，年底就表示要押注VLA，可能会给用户否定原方案的感觉。

2025年5月7日，理想AI Talk第二季上，李想再次强调，端到端+VLM的能力不足，现阶段VLA是最强架构，只有VLA的能力可以接近人类，甚至超越人类。这一次，李想详细讲解了VLM的不足，以及理想汽车是如何训练VLA的。

（图源：理想）

李想举例，VLM对于位置的判断非常糟糕，如果是两三个ETC出入口，还能作出准确判断，但若遇到了京承高速这种十几个ETC的高速出入口，VLM模型就不知道怎么判断了，而且问题出在模型架构，即便喂更多语料给VLM都无法解决这个问题。

VLA的训练分为VL（视觉语言）基座预训练、辅助驾驶后训练、辅助驾驶强化学习三个部分。其中预训练相当于人类通过视觉数据、语言数据、视觉语言联合数据学习和认知物理世界、交通知识，训练出VL模型基座。

（图源：直播截图）

后训练则相当于人类在驾校学习开车，通过Action（动作）数据对周围环境和自车驾驶行为编码，将VL模型基座训练成VLA司机大模型。同时，VLA采用短思维链的特性，搭配Diffusion扩散模型对于他车轨迹和环境的预测，令其实时性更强，在复杂交通环境下依然具备较强的通行能力。

强化训练则相当于我们日常开车，可以通过RLHF（基于人类反馈的强化学习），训练大模型对于交通规则的理解能力，并使VLA更符合用户的驾驶习惯。

最终产品会以司机Agent（智能体）的形式呈现，可以理解人类自然语意，用户怎么指挥，车就怎么开。理想公布的测试视频中，司机Agent可以根据语音指令，在不退出NOA的情况下切换路线，或者根据用户指令在高速出入口走人工通道。

（图源：直播截图）

VLA并未摆脱端到端智驾方案的黑盒问题，为此理想在2024年底组建了超过1000人的超级对齐团队，并构建了仿真世界模型，可在虚拟世界中验证司机Agent的专业能力、职业能力和构建信任的能力。原本依靠人类司机验证，一万公里成本高达17万元到18万元，仿真世界中1万公里验证成本仅4000多元。

理想汽车车表示，由于英伟达Orin-X芯片无法直接运行语言模型，端到端+VLM对于部分企业而言仍是不小的挑战。理想拥有编译团队，自研了底层推理引擎，使芯片可通过INT4（4比特整型）量化的方式运行VLM，理想在智驾技术领域的原创性，高于理想汽车核心竞争力之一的增程技术。

不过理想汽车表示，VLA的实现不是突变过程，而是从规则算法到端到端大模型及端到端+VLM，再到VLA的进化过程，唯有夯实基础，才能实现VLA。这也解释了为何理想会在推送端到端+VLM方案后，又押注VLA，基于规则算法和端到端+VLM的技术积累，理想才跨步到了VLA阶段。

对于近期辅助驾驶车型接连出现事故，消费者失去信任，甚至有网友呼吁叫停辅助驾驶的情况，理想则认为更像是黎明前的黑暗，技术不会停止向前发展。

的确，辅助驾驶车型出现事故，只会让车企在研究技术时更加谨慎，增加验证频次，不会导致车企因噎废食，技术领域的竞争将更加激烈。一直处于国内辅助驾驶技术第一梯队的理想，也许能够通过VLA方案，为行业带来新的思路与方向。

分享到

更多推荐

037165901996 回顶部