6月11日,自動(dòng)駕駛公司元戎啟行在2025年火山引擎Force原動(dòng)力大會(huì)上宣布,其VLA模型將于今年第三季度推向消費(fèi)者市場(chǎng),并預(yù)計(jì)在年內(nèi)上車(chē)五款車(chē)型。

圖片來(lái)源:元戎啟行
VLA模型即視覺(jué)—語(yǔ)言—動(dòng)作模型,是元戎啟行在端到端模型基礎(chǔ)上引入大語(yǔ)言模型后升級(jí)而成的多模態(tài)模型,可理解交通場(chǎng)景中復(fù)雜交互事件,識(shí)別異形障礙物,理解文字信息并且可以根據(jù)語(yǔ)音指令做出對(duì)應(yīng)駕駛決策。
目前,元戎啟行已完成該模型的真實(shí)道路測(cè)試。其中,VLA模型支持激光雷達(dá)方案與純視覺(jué)方案,將率先搭載在NVIDIA Drive Thor芯片上,后續(xù)元戎啟行還將通過(guò)技術(shù)優(yōu)化,讓VLA模型可以適配更多芯片平臺(tái)。
此次VLA模型的發(fā)布,展示了其四大核心功能,即空間語(yǔ)義理解、異形障礙物識(shí)別、文字類(lèi)引導(dǎo)牌理解和語(yǔ)音控車(chē)。

圖片來(lái)源:元戎啟行
具體來(lái)看,空間語(yǔ)義理解功能相當(dāng)于駕駛“透視眼”,能夠全維度解構(gòu)駕駛環(huán)境,精準(zhǔn)破解橋洞通行、公交車(chē)遮擋視野等動(dòng)靜態(tài)駕駛盲區(qū)場(chǎng)景駕駛風(fēng)險(xiǎn);異形障礙物識(shí)別功能如同駕駛 “百事通”,可識(shí)別各種異形障礙物;文字類(lèi)引導(dǎo)牌理解功能能準(zhǔn)確理解并執(zhí)行文字指示;語(yǔ)音交互控車(chē)功能則如同駕駛 “應(yīng)答靈”,可與用戶(hù)高效交流,根據(jù)語(yǔ)音指令做出對(duì)應(yīng)駕駛決策,交互更擬人。
元戎啟行CEO周光強(qiáng)調(diào),VLA模型是實(shí)現(xiàn)物理世界agent的關(guān)鍵技術(shù),可連接多種模態(tài),打通物理世界與數(shù)字世界壁壘,具有完善任務(wù)規(guī)劃和執(zhí)行能力,此次與火山引擎合作將推動(dòng)雙方技術(shù)在多領(lǐng)域落地,促進(jìn)生產(chǎn)力進(jìn)階。
VLA模型的量產(chǎn)上車(chē),將為消費(fèi)者帶來(lái)更智能、便捷和安全的駕駛體驗(yàn),推動(dòng)汽車(chē)產(chǎn)業(yè)向智能化進(jìn)一步轉(zhuǎn)型,也有望重塑智能駕駛市場(chǎng)格局,助力元戎啟行在自動(dòng)駕駛領(lǐng)域取得更大市場(chǎng)份額和競(jìng)爭(zhēng)優(yōu)勢(shì),為行業(yè)發(fā)展樹(shù)立新標(biāo)桿,開(kāi)啟智能駕駛新時(shí)代。