分享缩略图
押注VLA! 李想谈智驾: 行业已进入黎明前的黑暗
来源:广州日报 2025-05-09 06:36:23
大字

2024年底,理想汽车CEO李想在理想AI Talk第一季上表示,基座模型到一定时刻,一定会变成VLA(视觉语言行动模型)。2024年10月,理想汽车才开始推送端到端+VLM(视觉语言模型)智驾方案,年底就表示要押注VLA,可能会给用户否定原方案的感觉。

2025年5月7日,理想AI Talk第二季上,李想再次强调,端到端+VLM的能力不足,现阶段VLA是最强架构,只有VLA的能力可以接近人类,甚至超越人类。这一次,李想详细讲解了VLM的不足,以及理想汽车是如何训练VLA的。

(图源:理想)

李想举例,VLM对于位置的判断非常糟糕,如果是两三个ETC出入口,还能作出准确判断,但若遇到了京承高速这种十几个ETC的高速出入口,VLM模型就不知道怎么判断了,而且问题出在模型架构,即便喂更多语料给VLM都无法解决这个问题。

VLA的训练分为VL(视觉语言)基座预训练、辅助驾驶后训练、辅助驾驶强化学习三个部分。其中预训练相当于人类通过视觉数据、语言数据、视觉语言联合数据学习和认知物理世界、交通知识,训练出VL模型基座。

(图源:直播截图)

后训练则相当于人类在驾校学习开车,通过Action(动作)数据对周围环境和自车驾驶行为编码,将VL模型基座训练成VLA司机大模型。同时,VLA采用短思维链的特性,搭配Diffusion扩散模型对于他车轨迹和环境的预测,令其实时性更强,在复杂交通环境下依然具备较强的通行能力。

强化训练则相当于我们日常开车,可以通过RLHF(基于人类反馈的强化学习),训练大模型对于交通规则的理解能力,并使VLA更符合用户的驾驶习惯。

最终产品会以司机Agent(智能体)的形式呈现,可以理解人类自然语意,用户怎么指挥,车就怎么开。理想公布的测试视频中,司机Agent可以根据语音指令,在不退出NOA的情况下切换路线,或者根据用户指令在高速出入口走人工通道。

(图源:直播截图)

VLA并未摆脱端到端智驾方案的黑盒问题,为此理想在2024年底组建了超过1000人的超级对齐团队,并构建了仿真世界模型,可在虚拟世界中验证司机Agent的专业能力、职业能力和构建信任的能力。原本依靠人类司机验证,一万公里成本高达17万元到18万元,仿真世界中1万公里验证成本仅4000多元。

理想汽车车表示,由于英伟达Orin-X芯片无法直接运行语言模型,端到端+VLM对于部分企业而言仍是不小的挑战。理想拥有编译团队,自研了底层推理引擎,使芯片可通过INT4(4比特整型)量化的方式运行VLM,理想在智驾技术领域的原创性,高于理想汽车核心竞争力之一的增程技术。

不过理想汽车表示,VLA的实现不是突变过程,而是从规则算法到端到端大模型及端到端+VLM,再到VLA的进化过程,唯有夯实基础,才能实现VLA。这也解释了为何理想会在推送端到端+VLM方案后,又押注VLA,基于规则算法和端到端+VLM的技术积累,理想才跨步到了VLA阶段。

对于近期辅助驾驶车型接连出现事故,消费者失去信任,甚至有网友呼吁叫停辅助驾驶的情况,理想则认为更像是黎明前的黑暗,技术不会停止向前发展。

的确,辅助驾驶车型出现事故,只会让车企在研究技术时更加谨慎,增加验证频次,不会导致车企因噎废食,技术领域的竞争将更加激烈。一直处于国内辅助驾驶技术第一梯队的理想,也许能够通过VLA方案,为行业带来新的思路与方向。

分享到
037165901996 回顶部