福利在线不卡,自拍视频网址,一级一片a,日韩一区二区免费电影,国产91综合一区在线观看,在线观看亚洲天堂,亚洲v欧美

當(dāng)前位置: 首頁 » 資訊 » 芯智駕 » 車企 » 正文

基礎(chǔ)模型在推進(jìn)自動(dòng)駕駛汽車中的前瞻性作用

放大字體  縮小字體 發(fā)布日期:2024-12-05  來源:Research?16 Jul 2024 Vol 7 Art  作者:鑫欏資訊
摘要: 摘要:隨著人工智能的發(fā)展和深度學(xué)習(xí)的突破,大型基礎(chǔ)模型(FMs),如GPT、Sora等,在包括自然語言處理和計(jì)算機(jī)視覺在內(nèi)的許多領(lǐng)域都取得了顯著成果。FMs在自動(dòng)駕駛中的應(yīng)用具有相當(dāng)大的前景。例如,它們可以有...

摘要:隨著人工智能的發(fā)展和深度學(xué)習(xí)的突破,大型基礎(chǔ)模型(FMs),如GPT、Sora等,在包括自然語言處理和計(jì)算機(jī)視覺在內(nèi)的許多領(lǐng)域都取得了顯著成果。FMs在自動(dòng)駕駛中的應(yīng)用具有相當(dāng)大的前景。例如,它們可以有助于增強(qiáng)場景理解和推理。通過對(duì)豐富的語言和視覺數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,F(xiàn)Ms可以理解和解釋駕駛場景中的各種元素,并提供認(rèn)知推理,為駕駛決策和規(guī)劃給出語言和行動(dòng)指令。此外,F(xiàn)Ms可以基于對(duì)駕駛場景的理解來增強(qiáng)數(shù)據(jù),以提供長尾分布中的罕見場景,這些在常規(guī)駕駛和數(shù)據(jù)采集過程中難以覆蓋性挖掘。這種增強(qiáng)可以隨后進(jìn)一步提高自動(dòng)駕駛系統(tǒng)準(zhǔn)確性和可靠性。FMs應(yīng)用潛力的另一個(gè)證明是世界模型,以DREAMER系列為例,它展示了理解物理定律和動(dòng)力學(xué)的能力。在自監(jiān)督學(xué)習(xí)范式下,從海量數(shù)據(jù)中學(xué)習(xí),世界模型可以生成看不見但可信的駕駛環(huán)境,促進(jìn)道路使用者行為預(yù)測的增強(qiáng)和駕駛策略的離線訓(xùn)練。在本文中,我們綜合了FMs在自動(dòng)駕駛中的應(yīng)用和未來趨勢。通過利用FMs的強(qiáng)大功能,我們努力解決自動(dòng)駕駛中長尾分布的潛在問題,從而提高該領(lǐng)域的整體安全性。1 引言自動(dòng)駕駛作為人工智能中最具挑戰(zhàn)性的任務(wù)之一,受到了廣泛關(guān)注。傳統(tǒng)的自動(dòng)駕駛系統(tǒng)采用模塊化開發(fā)策略[1,2],即感知、預(yù)測和規(guī)劃被分別開發(fā)并集成到車輛中。然而,模塊之間傳輸?shù)男畔⑹怯邢薜模⑶掖嬖谛畔⑷笔?。此外,傳播過程中存在累積誤差,模塊化傳輸?shù)挠?jì)算效率相對(duì)較低。這些因素共同導(dǎo)致模型性能不佳。為了進(jìn)一步減少誤差并提高計(jì)算效率,近年來,研究人員嘗試以端到端的方式訓(xùn)練模型[3,4]。端到端意味著模型直接從傳感器數(shù)據(jù)中獲取輸入,然后直接為車輛輸出控制決策。雖然已經(jīng)取得了一些進(jìn)展,但這些模型仍然主要依靠人工標(biāo)記數(shù)據(jù)的監(jiān)督學(xué)習(xí)(SL)由于現(xiàn)實(shí)世界中駕駛場景的千變?nèi)f化,僅用有限的標(biāo)記數(shù)據(jù)覆蓋所有潛在的情況具有挑戰(zhàn)性,這導(dǎo)致模型泛化能力較差,難以適應(yīng)復(fù)雜多變的現(xiàn)實(shí)世界極端情況。
近年來,基礎(chǔ)模型(FMs)的出現(xiàn)為解決這一差距提供了新的思路。FMs通常被認(rèn)為是在不同數(shù)據(jù)上訓(xùn)練的大規(guī)模機(jī)器學(xué)習(xí)模型,能夠應(yīng)用于各種下游任務(wù),這可能不一定與其原始訓(xùn)練目標(biāo)直接相關(guān)。該術(shù)語由斯坦福大學(xué)于2021年8月提出,稱為“在廣泛數(shù)據(jù)上訓(xùn)練的任何模型(通常使用大規(guī)模的自我監(jiān)督),可以通過微調(diào)適應(yīng)到廣泛的下游任務(wù)”[5]。FMs的應(yīng)用領(lǐng)域包括自然語言處理(Natural Language Processing,NLP)和計(jì)算機(jī)視覺(Computer Vision,CV),極具代表性的如BERT[6]和GPT-4[7],以及Sora[8]等。大多數(shù)FMs是基于一些經(jīng)典網(wǎng)絡(luò)架構(gòu)構(gòu)建的,例如,BERT和GPT-4是Transformer[9],Sora是基于Diffusion Transformer[10]。
與傳統(tǒng)深度學(xué)習(xí)不同,F(xiàn)Ms可以通過自監(jiān)督預(yù)訓(xùn)練直接從海量未標(biāo)記數(shù)據(jù)(如視頻、圖像、自然語言等)中學(xué)習(xí),從而獲得更強(qiáng)的泛化能力和涌現(xiàn)能力(被認(rèn)為已經(jīng)出現(xiàn)在大語言模型[LLM]中)?;诖耍谑褂蒙倭勘O(jiān)督數(shù)據(jù)進(jìn)行微調(diào)后,F(xiàn)Ms可以快速適配并遷移到自動(dòng)駕駛等下游任務(wù)中。憑借自監(jiān)督預(yù)訓(xùn)練賦予的強(qiáng)大理解、推理和泛化能力,F(xiàn)Ms有望打破傳統(tǒng)模型的瓶頸,使自動(dòng)駕駛系統(tǒng)能夠更好地理解和適應(yīng)復(fù)雜的交通環(huán)境,從而提供更安全、更可靠的自動(dòng)駕駛體驗(yàn)。
1.1.   涌現(xiàn)能力
基礎(chǔ)模型(FMs)的一大重要特征是涌現(xiàn),Bommasani等人[5]將FMs的涌現(xiàn)特征或涌現(xiàn)能力描述為“如果能力不存在于較小的模型中,而是存在于較大的模型中,那么它就是涌現(xiàn)的”。例如,語言模型(LM)對(duì)下游任務(wù)多樣化的適應(yīng)性,這是一種與初始訓(xùn)練沒有直接聯(lián)系的新行為,隨著模型擴(kuò)展超過一個(gè)未明確的閾值時(shí)突然出現(xiàn),轉(zhuǎn)變?yōu)長LM[11]。
目前,F(xiàn)Ms的涌現(xiàn)能力主要體現(xiàn)在大語言模型(Large Language Model, LLM)領(lǐng)域,在圖1[12]中可以看出,隨著模型大小、數(shù)據(jù)集大小以及用于訓(xùn)練的計(jì)算浮點(diǎn)數(shù)的增加,LLM的損耗減小,為進(jìn)行大規(guī)模模型訓(xùn)練提供了支持,圖2[11]表明,當(dāng)模型的參數(shù)量達(dá)到一定水平時(shí),LLM的能力將得到質(zhì)的飛躍,在不同的任務(wù)中表現(xiàn)出涌現(xiàn)能力。

圖1 擴(kuò)展定律

圖2 LLM 的涌現(xiàn)能力[11]。(A)至(H)代表不同的下游任務(wù)。(A) 三位數(shù)加減法和兩位數(shù)乘法;(B) 國際音標(biāo)轉(zhuǎn)寫;(C) 恢復(fù)亂碼單詞;(D) 波斯語答題;(E) 如實(shí)回答問題;(F) 映射概念域。(G) 大規(guī)模多任務(wù)語言理解;(H) 上下文詞匯語義理解;每個(gè)點(diǎn)都是一個(gè)單獨(dú)的 LLM,虛線代表隨機(jī)表現(xiàn)。
LLM的涌現(xiàn)能力在上下文學(xué)習(xí)(In Context Learning,ICL)[11,13]中得到了很好的體現(xiàn),嚴(yán)格來說,它可以被視為提示學(xué)習(xí)的子類。上下文學(xué)習(xí)能力是LLM在特定上下文環(huán)境中學(xué)習(xí)的能力,主要思想是來自于類比中學(xué)習(xí)[14]。ICL或提示學(xué)習(xí)使LLM在特定上下文中獲得優(yōu)異的性能,而無需參數(shù)調(diào)整。
一種特殊類型的ICL是思想鏈(Chain-of-Thought, CoT)。用戶可以將復(fù)雜的問題分解為一系列推理步驟作為LLM的輸入。這樣,LLM可以執(zhí)行復(fù)雜的推理任務(wù)[15]。緊急能力在LLM中很常見;目前還沒有令人信服的解釋為什么這些能力會(huì)以這樣的方式出現(xiàn)。
Park等人[16]引入了模擬真實(shí)人類行為的生成代理,基于預(yù)輸入設(shè)置執(zhí)行日?;顒?dòng),并以自然語言存儲(chǔ)日常記憶。作者將生成代理連接到LLM,創(chuàng)建了一個(gè)擁有25個(gè)智能代理的小社會(huì),用LLM檢索記憶,并利用其涌現(xiàn)能力來規(guī)劃智能代理的行為。在實(shí)驗(yàn)中,智能代理除了行為之外,還出現(xiàn)了越來越多的社會(huì)行為,充分展示了LLM的智能涌現(xiàn)。
1.2.   預(yù)訓(xùn)練
FMs的實(shí)現(xiàn)基于遷移學(xué)習(xí)和規(guī)模化[5],遷移學(xué)習(xí)的思想[17,18]是將在一個(gè)任務(wù)中學(xué)習(xí)到的知識(shí)應(yīng)用到另一個(gè)任務(wù)中,在深度學(xué)習(xí)中,遷移學(xué)習(xí)分預(yù)訓(xùn)練和微調(diào)兩個(gè)階段,F(xiàn)Ms用海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,得到預(yù)訓(xùn)練模型后,選擇特定的數(shù)據(jù)集進(jìn)行微調(diào),以適應(yīng)不同的下游任務(wù)。
預(yù)訓(xùn)練是FMs獲得涌現(xiàn)能力的基礎(chǔ)。通過對(duì)海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,F(xiàn)Ms可以獲得基本的理解和生成能力。預(yù)訓(xùn)練任務(wù)包括監(jiān)督學(xué)習(xí)(Supervised Learning,SL)、自監(jiān)督學(xué)習(xí)(self-supervised learning,SSL)等[19]。早期的預(yù)訓(xùn)練依賴于SL,尤其是在CV中。為了滿足神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需求,構(gòu)建了一些大規(guī)模的監(jiān)督數(shù)據(jù)集,如ImageNet[20]。然而,SL也有一些缺點(diǎn),即需要大規(guī)模的數(shù)據(jù)標(biāo)注。隨著模型大小和參數(shù)量的逐漸增加,SL的缺點(diǎn)變得更加明顯。在NLP中,由于文本標(biāo)注的難度遠(yuǎn)大于圖像標(biāo)注,SSL因其不需要標(biāo)注的特點(diǎn)逐漸受到學(xué)者們的青睞。
1.2.1.自監(jiān)督學(xué)習(xí)
SSL允許為后續(xù)任務(wù)學(xué)習(xí)未標(biāo)記數(shù)據(jù)中的特征表示。SSL的顯著特點(diǎn)是它們不需要手動(dòng)標(biāo)記標(biāo)簽,而是從未標(biāo)記的數(shù)據(jù)樣本中自動(dòng)生成標(biāo)簽。
SSL通常涉及2個(gè)主要過程[21]:(a)自監(jiān)督訓(xùn)練階段:訓(xùn)練模型以解決設(shè)計(jì)的輔助任務(wù),并在此階段根據(jù)數(shù)據(jù)屬性自動(dòng)生成偽標(biāo)簽,旨在讓模型學(xué)習(xí)數(shù)據(jù)的通用表示。(b)下游任務(wù)應(yīng)用階段:經(jīng)過自監(jiān)督訓(xùn)練后,模型學(xué)習(xí)到的知識(shí)可以進(jìn)一步用于實(shí)際的下游任務(wù)(Downstream tasks)。下游任務(wù)使用SL方法,其中包括語義分割[22]、目標(biāo)檢測[23]、情感分析[24]。由于自監(jiān)督訓(xùn)練,模型在下游任務(wù)中的泛化能力和收斂速度將大大提高。
SSL方法一般分為3類[25]:基于生成的方法(Generative-based)、基于對(duì)比的方法(Contrastive-based)和基于對(duì)抗的方法(Adversarial-based)?;谏傻姆椒ǎ核紫仁褂镁幋a器對(duì)輸入數(shù)據(jù)進(jìn)行編碼,然后使用解碼器重新獲得數(shù)據(jù)的原始形式。模型通過最小化誤差來學(xué)習(xí)?;谏傻姆椒òㄗ曰貧w模型(Auto-regressive models)、自編碼模型(Auto-encoding models)等[26]?;趯?duì)比的方法:它通過輔助任務(wù)構(gòu)造正負(fù)樣本,通過比較與正負(fù)樣本的相似度來學(xué)習(xí)。這樣的方法包括SimCLR[27]等?;趯?duì)抗的方法:這種方法由一個(gè)生成器和一個(gè)鑒別器組成。生成器負(fù)責(zé)生成假樣本,而鑒別器適用于區(qū)分這些假樣本和真實(shí)樣本[25],一個(gè)典型的例子是生成對(duì)抗網(wǎng)絡(luò)(GANs)[28]。
1.2.2.SSL的輔助任務(wù)
輔助任務(wù)也可以稱為自監(jiān)督任務(wù),因?yàn)樗鼈円蕾嚁?shù)據(jù)本身來生成標(biāo)簽。這些任務(wù)是旨在使模型學(xué)習(xí)與特定任務(wù)相關(guān)的表示,從而更好地處理下游任務(wù)。
在CV中,根據(jù)數(shù)據(jù)屬性設(shè)計(jì)輔助任務(wù)的方法主要有4大類[21]:基于生成的方法,基于上下文的方法,基于自由語義標(biāo)簽的方法和跨模態(tài)的方法。其中,基于生成的方法主要涉及圖像或視頻生成任務(wù)[29,30];基于上下文的輔助任務(wù)主要是利用圖像或視頻的上下文特征設(shè)計(jì)的,如上下文相似性、空間結(jié)構(gòu)、時(shí)間結(jié)構(gòu)等[31-33];在基于自由語義標(biāo)簽的輔助任務(wù)中,利用自動(dòng)生成的語義標(biāo)簽訓(xùn)練網(wǎng)絡(luò)[34];而基于跨模態(tài)的輔助任務(wù)需要考慮視覺和語音等多種模態(tài)[35]。
在NLP中,最常見的輔助任務(wù)包括[36]中心和鄰近詞預(yù)測(Center and neighbor word prediction)、下一個(gè)和鄰近句預(yù)測(Next and neighbor sentence prediction)、自回歸語言建模(Autoregressive Language Modeling)、句子排列(Sentence Permutation)、掩碼語言建模(Masked Language Modeling)等。其中,Word2Vec[37]模型使用中心詞預(yù)測作為輔助任務(wù),而BERT模型使用下一個(gè)句子預(yù)測和掩碼語言建模作為輔助任務(wù)。這些模型被訓(xùn)練來學(xué)習(xí)語料庫的表達(dá)式并應(yīng)用于下游任務(wù)。
1.3.   微調(diào)
微調(diào)是基于已經(jīng)訓(xùn)練好的模型對(duì)特定任務(wù)進(jìn)行進(jìn)一步訓(xùn)練的過程,以使其適應(yīng)任務(wù)的特定數(shù)據(jù)和要求。通常,已經(jīng)在大規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練作為基礎(chǔ)模型,然后在特定任務(wù)上進(jìn)行微調(diào)以提高性能。目前,在LLM領(lǐng)域,微調(diào)方法包括2種主要方法:指令調(diào)整和對(duì)齊調(diào)整[38]。
指令微調(diào)旨在對(duì)指令描述的一組數(shù)據(jù)集上的預(yù)訓(xùn)練模型進(jìn)行微調(diào)[39]。指令微調(diào)一般包括2個(gè)階段。首先,需要收集或創(chuàng)建指令格式化的實(shí)例。然后,使用這些實(shí)例對(duì)模型進(jìn)行微調(diào)。指令微調(diào)允許LLM在以前未見過的任務(wù)上表現(xiàn)出強(qiáng)大的泛化能力。經(jīng)過預(yù)訓(xùn)練和微調(diào)后得到的模型在大多數(shù)情況下都能很好地工作;然而,可能會(huì)出現(xiàn)一些特殊情況。例如,在LLM的情況下,訓(xùn)練后的模型可能會(huì)出現(xiàn)偽造虛假信息或保留來自語料庫的有偏見的信息。為了避免這樣的問題,提出了人類對(duì)齊微調(diào)的概念。目標(biāo)是使模型的行為符合人類的期望[40]。與指令微調(diào)相比,這種對(duì)齊需要考慮完全不同的標(biāo)準(zhǔn)。
GPT系列是典型的FM,它的訓(xùn)練過程同樣也包括預(yù)訓(xùn)練和微調(diào)兩階段,以ChatGPT為例,ChatGPT的預(yù)訓(xùn)練過程采用自監(jiān)督預(yù)訓(xùn)練[41],給定無監(jiān)督語料庫,使用標(biāo)準(zhǔn)語言建模方法優(yōu)化其最大似然估計(jì)(MLE),GPT使用了多層Transformer解碼器架構(gòu)[42],從而產(chǎn)生預(yù)訓(xùn)練模型。
ChatGPT的微調(diào)階段由以下3個(gè)步驟組成[40],首先,對(duì)獲得的預(yù)訓(xùn)練模型進(jìn)行監(jiān)督微調(diào)(Supervised fine-tuning,SFT);其次,收集比較數(shù)據(jù)以訓(xùn)練獎(jiǎng)勵(lì)模型(Reward Model, RM);以及第三,利用近端策略優(yōu)化(PPO)算法對(duì)SFT模型進(jìn)行微調(diào),使獎(jiǎng)勵(lì)最大化[43],后兩個(gè)步驟加在一起就是利用人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)[44]。
1.4.   FMs在自動(dòng)駕駛中的應(yīng)用
自動(dòng)駕駛的最終目標(biāo)是實(shí)現(xiàn)能夠完全替代人類駕駛的駕駛系統(tǒng),而評(píng)價(jià)的基本標(biāo)準(zhǔn)是像人類駕駛員一樣駕駛,這對(duì)自動(dòng)駕駛模型的推理能力提出了非常高的要求。我們可以看到,基于大規(guī)模數(shù)據(jù)學(xué)習(xí)的FMs具有強(qiáng)大的推理和泛化能力,在自動(dòng)駕駛中具有巨大的潛力。在為自動(dòng)駕駛賦能中,可以利用FMs增強(qiáng)場景理解,給出語言引導(dǎo)的命令,生成駕駛動(dòng)作。此外,還可以通過強(qiáng)大的生成能力來增強(qiáng)FMs,用于數(shù)據(jù)增強(qiáng),包括擴(kuò)展現(xiàn)有的自動(dòng)駕駛數(shù)據(jù)集和直接生成駕駛場景。特別是,世界模型(FMs的一種)可以學(xué)習(xí)物理世界的內(nèi)部運(yùn)作,并預(yù)測未來的駕駛場景,這對(duì)自動(dòng)駕駛具有實(shí)質(zhì)性的重要意義。
因此,有必要對(duì)FMs在自動(dòng)駕駛中的應(yīng)用進(jìn)行全面審查。本文對(duì)此進(jìn)行了回顧。

· 在“有監(jiān)督的端到端自動(dòng)駕駛”部分,提供了最新有監(jiān)督的端到端自動(dòng)駕駛的簡要概述,以便讀者更好地了解背景。

· “基于語言和視覺模型的類人駕駛”部分回顧了語言和視覺FMs在增強(qiáng)自動(dòng)駕駛方面的應(yīng)用。

· “基于世界模型的自動(dòng)駕駛預(yù)測”部分回顧了世界模型在自動(dòng)駕駛領(lǐng)域探索中的應(yīng)用。

· “基于基礎(chǔ)模型的數(shù)據(jù)增強(qiáng)”部分回顧了FMs在數(shù)據(jù)增強(qiáng)中的應(yīng)用。


在上述概述的基礎(chǔ)上,“結(jié)論和未來方向”部分介紹了使用FMs增強(qiáng)自動(dòng)駕駛的挑戰(zhàn)和未來方向。
2 有監(jiān)督的端到端自動(dòng)駕駛自動(dòng)駕駛研究中“預(yù)訓(xùn)練+微調(diào)”的研究思路不僅在引入大型模型后才出現(xiàn),而是已經(jīng)被研究了很長時(shí)間。用一個(gè)更熟悉的術(shù)語來說,就是端到端自動(dòng)駕駛。在過去的幾年里,一些學(xué)者已經(jīng)通過各種方式對(duì)預(yù)訓(xùn)練骨干進(jìn)行了優(yōu)化,包括Transformer架構(gòu)和SSL方法。注意,這里的預(yù)訓(xùn)練骨干是指將每個(gè)模態(tài)輸入轉(zhuǎn)換為下游任務(wù)(如目標(biāo)檢測、軌跡預(yù)測、決策規(guī)劃等)可用的特征表示的模型?;赥ransformer架構(gòu)開發(fā)端到端框架也進(jìn)行了許多研究嘗試,取得了優(yōu)異的成果。因此,為了更全面地總結(jié)底層模型在自動(dòng)駕駛中的應(yīng)用,我們認(rèn)為有必要介紹基于預(yù)訓(xùn)練骨干網(wǎng)的端到端自動(dòng)駕駛相關(guān)研究。在本節(jié)中,我們總結(jié)了關(guān)于端到端自動(dòng)駕駛解決方案的預(yù)訓(xùn)練骨干網(wǎng)的最新研究。這些方法的流程在圖3中簡要說明。
2.1.   預(yù)訓(xùn)練Backbone
在端到端建模中,從原始數(shù)據(jù)中提取低級(jí)信息的特征在一定程度上決定了后續(xù)模型性能的潛力,優(yōu)秀的預(yù)訓(xùn)練Backbone可以賦予模型更強(qiáng)大的特征學(xué)習(xí)能力。ResNet[45]和VGGNet[46]等預(yù)訓(xùn)練卷積網(wǎng)絡(luò)是端到端模型中使用最廣泛的視覺特征提取骨干。這些預(yù)訓(xùn)練網(wǎng)絡(luò)經(jīng)常被訓(xùn)練為利用目標(biāo)檢測或分割作為提取廣義特征信息的任務(wù),它們的競爭性能已經(jīng)在許多工作中得到驗(yàn)證。ViT[47]首先將transformer架構(gòu)應(yīng)用于圖像處理,并取得了出色的分類結(jié)果。Transformer以其更簡單的架構(gòu)和更快的推理速度,具有處理大規(guī)模數(shù)據(jù)的優(yōu)化算法的優(yōu)勢。自注意力機(jī)制非常適合處理時(shí)間序列數(shù)據(jù)。它能夠?qū)Νh(huán)境中物體的時(shí)間運(yùn)動(dòng)軌跡進(jìn)行建模和預(yù)測,有利于融合來自多個(gè)來源的異構(gòu)數(shù)據(jù),如LiDAR點(diǎn)云、圖像、地圖等。以LSS[48]、BEVDet[49]、BEVformer[50]、BEVerse[51]等為代表的另一類預(yù)訓(xùn)練骨干網(wǎng),通過提取環(huán)繞攝像頭拍攝的圖像并通過模型學(xué)習(xí)將其轉(zhuǎn)換為鳥瞰圖(BEV)特征,將局部圖像特征從二維(2D)視點(diǎn)索引到3D空間,從而擴(kuò)展了可用性。近年來,BEV因其能夠更準(zhǔn)確地描述駕駛場景而引起了廣泛的興趣,利用預(yù)訓(xùn)練Backbone輸出等BEV特征的研究不僅限于相機(jī),多模態(tài)感知的提取和融合以BEVFusion[52]為代表的BEV特征進(jìn)一步為自動(dòng)駕駛系統(tǒng)提供了更廣闊的視野。然而,需要指出的是,盡管transformer架構(gòu)帶來了巨大的性能增強(qiáng),但這種Backbone仍然使用SL方法構(gòu)建預(yù)訓(xùn)練模型,這些方法依賴于海量標(biāo)記數(shù)據(jù),數(shù)據(jù)質(zhì)量也極大地影響了模型的最終結(jié)果。
在相機(jī)和點(diǎn)云處理域中,一些工作通過無監(jiān)督或SSL方法實(shí)現(xiàn)預(yù)訓(xùn)練Backbone。Wu等[53]提出了PPGeo模型,該模型使用大量未標(biāo)記的駕駛視頻分2個(gè)階段完成視覺編碼器的預(yù)訓(xùn)練,并且可以適應(yīng)不同的下游端到端自動(dòng)駕駛?cè)蝿?wù)。Sautier等[54]提出了BEVContrast,用于汽車LiDAR點(diǎn)云上3D Backbone的自監(jiān)督,它定義了BEV平面中2D單元級(jí)別的對(duì)比度,保留了PointContrast[55]中的簡單性,同時(shí)在下游駕駛?cè)蝿?wù)中保持了良好的性能。特別是,雖然“掩碼+還原”的SSL方法也被認(rèn)為是建模世界的有效方式,Yang等[56]提出了Unipad,它是基于SSL方法實(shí)現(xiàn)的,用于掩碼自動(dòng)編碼和3D渲染。這些多模態(tài)數(shù)據(jù)的一部分被隨機(jī)鍵出來進(jìn)行掩碼并轉(zhuǎn)換到體素空間,其中RGB或深度預(yù)測結(jié)果通過渲染技術(shù)在這樣的3D空間中生成,其余的原始圖像被用作SL的生成數(shù)據(jù)。該方法的靈活性使得能夠很好地集成到2D和3D框架中以及下游任務(wù),如深度估計(jì)、目標(biāo)檢測、分割,以及在模型上進(jìn)行微調(diào)和訓(xùn)練的許多其他任務(wù)表現(xiàn)出色。

圖3 帶有預(yù)訓(xùn)練Backbone的端到端監(jiān)督式自動(dòng)駕駛系統(tǒng)。多模態(tài)傳感信息被輸入到預(yù)訓(xùn)練Backbone以提取特征,然后進(jìn)入由各種方法構(gòu)建的自動(dòng)駕駛算法框架,以實(shí)現(xiàn)規(guī)劃/控制等任務(wù),從而完成端到端自動(dòng)駕駛?cè)蝿?wù)。
2.2.   有監(jiān)督的端到端自動(dòng)駕駛模型
端到端自動(dòng)駕駛建模的早期工作主要基于各種類型的深度神經(jīng)網(wǎng)絡(luò),通過模仿學(xué)習(xí)[57-61]或強(qiáng)化學(xué)習(xí)[62-64]的方法構(gòu)建,陳等[3]的工作從方法論的角度分析了端到端自動(dòng)駕駛面臨的關(guān)鍵挑戰(zhàn),指出了用Transformer等基礎(chǔ)模型為端到端自動(dòng)駕駛賦能的未來趨勢,一些學(xué)者嘗試用Transformer構(gòu)建端到端自動(dòng)駕駛系統(tǒng),得到了不錯(cuò)的效果。例如,已經(jīng)有Transfuser[65,66]、NEAT(端到端自動(dòng)駕駛的神經(jīng)注意力領(lǐng)域)[67]、Scene Transformer[68]、PlanT[69]、Gatform[70]、FusionAD[71]、UniAD[72]、VAD(高效自動(dòng)駕駛的矢量化場景表示)[73]、GenAD[74]以及許多基于Transformer架構(gòu)開發(fā)的端到端框架。Chitta等人[65,66]提出了Transfuser,它將來自LiDAR的RGB圖像和BEV視圖作為輸入,使用多個(gè)Transformer融合特征圖,并通過單層門控循環(huán)單元(GRU)網(wǎng)絡(luò)預(yù)測接下來4步的軌跡點(diǎn),隨后通過縱向和橫向比例-積分-微分(PIDs)來控制車輛運(yùn)行。NEAT[67]進(jìn)一步將BEV場景映射到軌跡點(diǎn)和語義信息,然后使用中間注意力圖壓縮高維圖像特征,這使得模型可以專注于駕駛相關(guān)區(qū)域,忽略駕駛?cè)蝿?wù)無關(guān)的信息。Renz等人[69]提出的PlanT使用簡單的對(duì)象級(jí)表示(車輛和道路)作為Transformer編碼器的輸入,并將周圍車輛的速度預(yù)測作為次要任務(wù)來預(yù)測未來的航路點(diǎn)軌跡。Hu等人[72]提出的UniAD增強(qiáng)了解碼器的設(shè)計(jì),并實(shí)現(xiàn)了將全棧自動(dòng)駕駛?cè)蝿?wù)整合到一個(gè)統(tǒng)一的框架中,以提高自動(dòng)駕駛性能,盡管每個(gè)任務(wù)仍然依賴不同的子網(wǎng)絡(luò)。這項(xiàng)工作還獲得了CVPR 2023最佳論文獎(jiǎng),這表明了對(duì)端到端自動(dòng)駕駛范式的學(xué)術(shù)認(rèn)可。然而,這些模型往往需要密集的計(jì)算。為此,江等人[73]提出了一種方法,將駕駛場景完全向量化,并學(xué)習(xí)實(shí)例級(jí)結(jié)構(gòu)信息,以提高計(jì)算效率。與之前的模塊化端到端規(guī)劃相比,Zheng等人[74]提出了一種生成式端到端,將自動(dòng)駕駛建模為軌跡生成。
而且,Wang等人[75]提出的Drive Anywhere不僅實(shí)現(xiàn)了端到端的多模態(tài)自動(dòng)駕駛還與LLM相結(jié)合,能夠基于可通過圖像和文本查詢的表示提供駕駛決策。Dong等人[76]生成的基于圖像的動(dòng)作命令和解釋,并通過構(gòu)建基于Transformer的特征提取模型進(jìn)行解釋。Jin等人[77]提出了ADAPT模型,通過端到端模型直接輸出帶有推理語言描述的車輛控制信號(hào)。這是第一個(gè)基于動(dòng)作感知transformer的駕駛動(dòng)作字幕架構(gòu)。它在完成駕駛控制任務(wù)的同時(shí),添加了自然語言敘述,以指導(dǎo)自動(dòng)駕駛控制模塊的決策和行動(dòng)過程。它還幫助用戶時(shí)刻獲取車輛的狀態(tài)和周圍環(huán)境,并更好地了解自動(dòng)駕駛系統(tǒng)所采取行動(dòng)的基礎(chǔ),提高了決策的可解釋性。從中我們亦可窺見Transformer架構(gòu)在增強(qiáng)端到端駕駛決策可解釋性方面的潛力。
3 基于語言和視覺模型的類人駕駛隨著LLMs BERT、GPT-4和Llama[78];視覺語言模型(VLMs)CLIP[79]、ALIGN[80]和BLIP-2[81];和多模態(tài)大語言模型(M-LLMs)GPT-4V[82]、LLaVA[83]和Gemini[84]以及其他FM的顯著研究進(jìn)展,其強(qiáng)大的推理能力被認(rèn)為為實(shí)現(xiàn)人工通用智能迎來了新的曙光[85],對(duì)社會(huì)的方方面面產(chǎn)生了顯著而深遠(yuǎn)的影響。在自動(dòng)駕駛中,語言和視覺等FMs也顯示出巨大的潛力,有望提高自動(dòng)駕駛模型對(duì)駕駛場景的理解和推理能力,為自動(dòng)駕駛實(shí)現(xiàn)類人駕駛。
我們介紹了基于語言和視覺FMs來增強(qiáng)自動(dòng)駕駛系統(tǒng)對(duì)駕駛場景理解,以及推理給出語言引導(dǎo)指令和動(dòng)作指令的相關(guān)研究,如圖4所示。關(guān)于增強(qiáng)對(duì)駕駛場景理解的相關(guān)工作在“駕駛場景理解”部分介紹,關(guān)于給出語言引導(dǎo)指令的推理在“語言引導(dǎo)指令”部分介紹,關(guān)于推理生成駕駛動(dòng)作在“動(dòng)作生成”部分介紹。

圖4 利用 FMs 增強(qiáng)自動(dòng)駕駛,其中 FMs指的是大語言模型和視覺語言模型。FMs可以學(xué)習(xí)感知信息,并利用其強(qiáng)大的理解駕駛場景和推理能力,給出語言指令和駕駛操作,從而增強(qiáng)自動(dòng)駕駛。
3.1.  駕駛場景理解
Vasudevan等人[86]的研究發(fā)現(xiàn),通過獲取言語描述和凝視估計(jì)可以有效增強(qiáng)模型對(duì)場景的理解和對(duì)物體的定位能力。Li等人[87]提出了一種生成高級(jí)語義信息的圖像字幕模型,以提高其對(duì)交通場景的理解。他們的工作驗(yàn)證了語言和視覺特征可以有效增強(qiáng)對(duì)駕駛場景的理解。
Sriram等人[88]提出了一種將語義分割結(jié)果與自然語言命令相結(jié)合的自主導(dǎo)航框架。在CARLA模擬器和KITTI數(shù)據(jù)集[89]中驗(yàn)證了自然語言命令作為汽車驅(qū)動(dòng)的有效性。Elhafsi等人[90]通過將觀察到的視覺信息轉(zhuǎn)換為自然語言描述并將其傳遞給LLM,利用其強(qiáng)大的推理能力來識(shí)別語義異常。在VLM應(yīng)用的背景下,Chen等人[91]將圖像和文本特征轉(zhuǎn)移到基于CLIP的3D點(diǎn)云網(wǎng)絡(luò)中,以增強(qiáng)模型對(duì)3D場景的理解。Romero 等[92]基于CLIP的擴(kuò)展模型VIVA[93]構(gòu)建了一個(gè)視頻分析系統(tǒng),旨在通過利用VLM的強(qiáng)大理解來提高查詢精度。Tian等人[94]采用VLM來描述和分析駕駛場景,從而增強(qiáng)了對(duì)駕駛場景的理解。除了直接對(duì)場景數(shù)據(jù)的理解增強(qiáng),也有學(xué)者探索了對(duì)感知特征進(jìn)行增強(qiáng)。Pan等人[95]設(shè)計(jì)了Ego-car提示,以使用CLIP中的LM來增強(qiáng)獲得的BEV特征。Dewangan等人[96]提出了一種增強(qiáng)BEV地圖的方法,通過VLMs(Blip-2[81]、Minigpt-4[97]和Instructblip[98])檢測BEV中每個(gè)對(duì)象的特征,并通過語言表征來獲得語言增強(qiáng)的BEV地圖。然而,現(xiàn)有的VLM受限于2D域,缺乏空間感知和長時(shí)間域外推的能力。為了解決這個(gè)問題,Zhou等人[99]提出了一個(gè)模型,即Embodied Language Model(ELM),它增強(qiáng)了對(duì)長時(shí)間域和跨空間駕駛場景的理解。這是通過使用不同的預(yù)訓(xùn)練數(shù)據(jù)和選擇自適應(yīng)Token來實(shí)現(xiàn)的。
3.2.   語言引導(dǎo)指令
在這里,我們回顧了通過FMs給出語言指令的研究,主要是描述性指令,如“前方紅燈,你應(yīng)該減速”、“前方路口,請(qǐng)注意行人”等。Ding等人[100]使用視覺編碼器對(duì)視頻數(shù)據(jù)進(jìn)行編碼,然后將視頻數(shù)據(jù)輸入到LLM中,生成相應(yīng)的駕駛場景描述和建議。特別是,這項(xiàng)工作還提出了一種方法,使高分辨率特征圖和獲得的高分辨率信息融合到M-LLM中,以進(jìn)一步增強(qiáng)模型的識(shí)別、解釋和定位能力。Fu等人[101]探索了利用LLM像人類一樣理解駕駛環(huán)境的潛力,利用LLaMA-Adapter[102]描述場景數(shù)據(jù),然后通過GPT-3.5給出語言命令。Wen等人[103]提出了DiLu,這是一種基于先前工作的知識(shí)驅(qū)動(dòng)范式,可以基于常識(shí)性知識(shí)做出決策并積累經(jīng)驗(yàn)。文章特別指出,DiLu具備指導(dǎo)真實(shí)世界數(shù)據(jù)的經(jīng)驗(yàn)獲取能力,具有自動(dòng)駕駛系統(tǒng)實(shí)際部署的潛力。為了進(jìn)一步提高基于LLM的自動(dòng)駕駛的安全性,Wang等人[104]使用基于MPC的驗(yàn)證器對(duì)軌跡規(guī)劃進(jìn)行評(píng)估并提供反饋,然后融合提示學(xué)習(xí),使LLM能夠進(jìn)行上下文安全學(xué)習(xí),這從整體上提高了自動(dòng)駕駛的安全性和可靠性。為了豐富數(shù)據(jù)輸入以獲得更準(zhǔn)確的場景信息,Wang等人[105]利用多模型LLM使自動(dòng)駕駛系統(tǒng)能夠獲得語言命令。同時(shí),針對(duì)語言命令和車輛控制命令之間的差距,本工作對(duì)決策狀態(tài)進(jìn)行了對(duì)齊操作。
前面提到的工作更多的是在數(shù)據(jù)集和仿真環(huán)境的背景下進(jìn)行的,在實(shí)車測試方面已經(jīng)有了一些探索性的工作,Wayve提出了LINGO-1[106],一種基于視覺-語言-行動(dòng)的大模型的自動(dòng)駕駛交互大模型,其中模型可以自我解讀,并在駕駛時(shí)進(jìn)行視覺回答,它引入了人類駕駛體驗(yàn),可以通過自然語言描述解釋駕駛場景中的各種因果要素,以類人理解的方式獲取駕駛場景中的特征信息,學(xué)習(xí)并給出交互式語言命令。Cui等人[107]創(chuàng)新性地將LLM置于云端,輸入人類命令,并利用LLM的推理能力生成執(zhí)行代碼。然而,該工作存在延遲問題,在自動(dòng)駕駛的實(shí)時(shí)性能要求方面有改進(jìn)的空間。
當(dāng)前研究中將LLM納入自動(dòng)駕駛系統(tǒng)的流程如圖4所示,主要通過場景理解、高級(jí)語義決策和軌跡規(guī)劃來實(shí)現(xiàn)。在本節(jié)中,我們總結(jié)了高級(jí)決策應(yīng)用,并認(rèn)為研究過程有一些相似之處。為了更清楚地說明它們是如何工作的,我們使用最近的典型研究工作DriveMLM[105]作為示例在圖5中進(jìn)一步說明。
DriveMLM通過使用M-LLM模擬模塊化自動(dòng)駕駛系統(tǒng)的行為規(guī)劃模塊,該模塊基于處理后的感知信息和命令要求,在逼真的模擬器中執(zhí)行閉環(huán)自動(dòng)駕駛。DriveMLM還生成其駕駛決策的自然語言解釋,從而增加系統(tǒng)的透明度和可信度。

圖5 關(guān)于LLM在自動(dòng)駕駛系統(tǒng)決策中的應(yīng)用,圖中顯示了一個(gè)典型架構(gòu),參考DriveMLM [105]。
3.3.   動(dòng)作生成
正如“語言引導(dǎo)指令”部分所描述的,學(xué)術(shù)界和工業(yè)界已經(jīng)嘗試將GPT語言知識(shí)嵌入到自動(dòng)駕駛決策中,以語言指令的形式增強(qiáng)自動(dòng)駕駛的性能,以促進(jìn)FMs在自動(dòng)駕駛中的應(yīng)用。早在FMs在LLM領(lǐng)域取得突破之前,就有一些工作試圖通過類似的研究思路來提高自動(dòng)駕駛的性能。例如,Casas等人[108]提出的MP3框架使用高層語義信息作為決策訓(xùn)練指導(dǎo),這些信息與感知數(shù)據(jù)一起構(gòu)成輸入,以構(gòu)建算法來實(shí)現(xiàn)運(yùn)動(dòng)預(yù)測。
語言大模型在自動(dòng)駕駛領(lǐng)域的應(yīng)用研究方興未艾,GPT系列作為transformer架構(gòu)目前最為成功的變體,或許能夠在多個(gè)層面為提升綜合表現(xiàn)帶來新的突破。從語言知識(shí)層面來看,LLM是FMs代表;然而,語言描述和推理并不是自動(dòng)駕駛系統(tǒng)直接應(yīng)用的??紤]到大模型有望真正部署在車端,最終需要落在規(guī)劃或控制指令上;即FMs最終應(yīng)該從動(dòng)作狀態(tài)層面賦能自動(dòng)駕駛。盡管如此,如何將語言決策量化為自動(dòng)駕駛系統(tǒng)可用的動(dòng)作命令,如規(guī)劃和控制,仍然面臨著巨大的挑戰(zhàn)。一些學(xué)者已經(jīng)進(jìn)行了初步探索,但仍有很大的發(fā)展空間。此外,一些學(xué)者探索了通過類似GPT的方法構(gòu)建自動(dòng)駕駛模型,該方法直接輸出基于LLM的軌跡甚至控制命令。在表1中,我們簡要概述了一些代表性工作。
表1 利用 LLM 生成自動(dòng)駕駛規(guī)劃和控制的工作

Sha等人[109]提出了LanguageMPC,它采用GPT-3.5作為需要人類常識(shí)理解的復(fù)雜自動(dòng)駕駛場景的決策模塊。通過設(shè)計(jì)認(rèn)知路徑來實(shí)現(xiàn)LLM中集成推理的,Sha等人提出了將LLM決策轉(zhuǎn)化為可操作的駕駛控制命令的算法,從而提高了車輛處理復(fù)雜駕駛行為的能力。Jain等人[110]的研究對(duì)明確的語言命令借助視覺感知實(shí)現(xiàn)導(dǎo)航定位并進(jìn)一步規(guī)劃軌跡。Omama等人[111]構(gòu)建了一種名為ALT-Pilot的基于多模態(tài)地圖的導(dǎo)航和定位方法,該方法可用于導(dǎo)航到任意目的地,而無需高清LiDAR地圖,證明了現(xiàn)成的視覺LMs可用于構(gòu)建語言增強(qiáng)的地形地圖。Pan等人[95]在訓(xùn)練階段提出了VLP方法,以提高具有LLM強(qiáng)大推理能力的自動(dòng)駕駛系統(tǒng)視覺感知和運(yùn)動(dòng)規(guī)劃的上下文推理,并在開環(huán)端到端運(yùn)動(dòng)規(guī)劃任務(wù)中取得了優(yōu)異的性能。
一些學(xué)者還嘗試通過類似GPT的方法直接構(gòu)建自動(dòng)駕駛模型,即利用LLM構(gòu)建端到端的自動(dòng)駕駛規(guī)劃器,直接輸出預(yù)測軌跡、路徑規(guī)劃甚至控制命令,旨在有效提高自動(dòng)駕駛模型對(duì)未知駕駛場景的泛化能力。
Pallagani等人[112]構(gòu)建了Plansformer,它既是一個(gè)LLM,也是一個(gè)規(guī)劃器,顯示了從多種規(guī)劃任務(wù)中展現(xiàn)了大語言模型微調(diào)后作為規(guī)劃器的巨大潛力。Wang等人[113]構(gòu)建了BEVGPT模型,該模型將道路上當(dāng)前環(huán)境信息作為輸入,然后輸出一個(gè)序列,其中包括未來的車輛決策指令和自動(dòng)駕駛車輛可以遵循的空間路徑。一些工作[114-119]將文本提示和道路上當(dāng)前環(huán)境的信息作為輸入,然后輸出文本響應(yīng)或解釋,以及包括未來車輛決策指令和自動(dòng)駕駛車輛可以遵循的空間路徑的序列。其中,Cui等人[117]利用GPT-4輸入自然語言描述和環(huán)境感知數(shù)據(jù),使LLM直接輸出駕駛決策和操作命令。此外,他們?cè)趨⒖嘉墨I(xiàn)[118]中對(duì)高速公路超車和變道場景進(jìn)行了實(shí)驗(yàn)。[118]比較了LLM提供的具有不同提示的駕駛決策,研究表明鏈?zhǔn)剿季S提示有助于LLM做出更好的駕駛決策。
一些學(xué)者也嘗試了不同的想法。Seff等人[120]提出了MotionLM,它將運(yùn)動(dòng)預(yù)測作為語言建模任務(wù),通過將連續(xù)軌跡表示為運(yùn)動(dòng)tokens的離散序列來學(xué)習(xí)多模態(tài)分布,利用單一標(biāo)準(zhǔn)語言建模目標(biāo)來預(yù)測路網(wǎng)參與者的未來行為。Mao等人[121]提出了GPT-Driver模型,通過將規(guī)劃者的輸入和輸出表示為語言標(biāo)記,并利用LLM通過坐標(biāo)位置的語言描述來生成駕駛軌跡,從而將運(yùn)動(dòng)規(guī)劃任務(wù)重新表述為語言建模問題。此外 ,他們[122]提出了Agent Driver,它利用LLM引入了可通過函數(shù)調(diào)用訪問的通用工具庫,用于常識(shí)的認(rèn)知記憶和用于決策的經(jīng)驗(yàn)知識(shí),以及能夠進(jìn)行CoT推理、任務(wù)規(guī)劃、運(yùn)動(dòng)規(guī)劃和自我反思的推理機(jī)器,以實(shí)現(xiàn)更細(xì)致入微的、類似人類的自動(dòng)駕駛方法。Ma等人[123]提出了Dolphins,它能夠執(zhí)行諸如理解場景、行為預(yù)測和軌跡規(guī)劃等任務(wù)。這項(xiàng)工作證明了視覺LM能夠全面理解復(fù)雜和開放世界長尾駕駛場景,解決一系列自動(dòng)駕駛?cè)蝿?wù)的能力,以及包括上下文學(xué)習(xí)、無梯度的即時(shí)適應(yīng)和反思性錯(cuò)誤恢復(fù)在內(nèi)的緊急類似人類的能力。
考慮到視覺語言模型(VLM)的規(guī)模挑戰(zhàn),Chen等人[124]基于數(shù)字矢量模態(tài)比圖像數(shù)據(jù)更緊湊的想法,將矢量化2D場景表示與預(yù)訓(xùn)練的LLM融合,以提高LLM對(duì)綜合駕駛情況的解釋和推理能力,給出場景解釋和車輛控制命令。Tian等人[94]提出DriveVLM,它通過CoT機(jī)制,不僅能夠生成圖像序列中呈現(xiàn)的場景的描述和分析,以做出駕駛決策指導(dǎo),還可以進(jìn)一步實(shí)現(xiàn)與傳統(tǒng)自動(dòng)駕駛流程相結(jié)合的軌跡規(guī)劃。所提出的工作還為VLM在空間推理和計(jì)算方面固有的挑戰(zhàn)提供了可能的解決方案,實(shí)現(xiàn)了現(xiàn)有自動(dòng)駕駛方法和基于大型模型的方法之間的有效過渡。
與上一個(gè)小節(jié)一樣,對(duì)于LLM應(yīng)用于自動(dòng)駕駛系統(tǒng)軌跡規(guī)劃直接生成的研究工作,我們以圖6中最近的一項(xiàng)典型研究工作LMDrive[119]為例,希望能更清楚地說明它是如何工作的。LMDrive基于Carla模擬器,模型訓(xùn)練由預(yù)訓(xùn)練和命令微調(diào)2個(gè)階段組成。在預(yù)訓(xùn)練階段,預(yù)測頭被添加到視覺編碼器中以執(zhí)行預(yù)訓(xùn)練任務(wù)。預(yù)訓(xùn)練完成后,預(yù)測頭被丟棄,視覺編碼器被凍結(jié)。在指令微調(diào)階段,為每個(gè)行駛段配置導(dǎo)航指令和通知指令,通過LLaMA指令編碼的時(shí)間序列對(duì)視覺tokens進(jìn)行處理,并與文本令牌一起輸入到LLM中,得到預(yù)測tokens。2-MLP適配器之后,輸出的是汽車未來軌跡的規(guī)劃和指令是否完成的標(biāo)志,規(guī)劃的軌跡通過橫向和縱向PID控制器完成閉環(huán)仿真。

圖6 關(guān)于 LLM 在自動(dòng)駕駛系統(tǒng)規(guī)劃中的應(yīng)用,圖中顯示了一個(gè)典型架構(gòu),參考LMDrive [119]。
這種類型的研究思路比單純的知識(shí)嵌入制作自動(dòng)駕駛模型更接近人類駕駛。隨著大模型的發(fā)展,也許有潛力成為未來的主要發(fā)展方向之一。運(yùn)動(dòng)規(guī)劃作為智能機(jī)器人領(lǐng)域的基本主題之一[125],通過LLM將語言決策量化為自動(dòng)駕駛系統(tǒng)可用的規(guī)劃甚至控制等動(dòng)作指令意義非凡,例如通過LLM為自動(dòng)駕駛系統(tǒng)提供規(guī)劃甚至控制。然而,應(yīng)該注意的是,由于大模型本身未解決的陷阱,這些新框架在可靠性方面也存在問題,如“幻覺”(LLM可能會(huì)生成與來源或事實(shí)信息相沖突的內(nèi)容)。關(guān)于大型模型本身的問題以及自動(dòng)駕駛中繼承的挑戰(zhàn)的具體細(xì)節(jié)將在“結(jié)論和未來方向”部分詳細(xì)討論4 基于世界模型的自動(dòng)駕駛預(yù)測世界模型(World models,WMs)是指世界的心理模型。它可以被解釋為一種人工智能模型,包含對(duì)其運(yùn)行的環(huán)境的整體理解或表示。這種模型能夠模擬環(huán)境以做出預(yù)測或決策。在最近的文獻(xiàn)[126,127]中,“世界模型”一詞已在與強(qiáng)化學(xué)習(xí)聯(lián)系中被提及。這一概念在自動(dòng)駕駛中也獲得了關(guān)注,因?yàn)樗軌蚶斫夂完U明駕駛環(huán)境的動(dòng)態(tài),下文將詳細(xì)介紹。LeCun[128]在他的立場文件中指出,人類和動(dòng)物的學(xué)習(xí)能力可能植根于他們學(xué)習(xí)世界模型的能力,使他們能夠內(nèi)化和理解世界是如何運(yùn)作的。他指出,人類和動(dòng)物已經(jīng)展示出一種能力,即通過觀察少量事件,無論與手頭的任務(wù)相關(guān)還是無關(guān),就能獲得關(guān)于世界運(yùn)行的大量背景知識(shí)。世界模型的思想可以追溯到Dyna,由Sutton[129]在1991年提出,觀察世界的狀態(tài)并相應(yīng)地采取適當(dāng)?shù)男袆?dòng)與世界進(jìn)行交互學(xué)習(xí)[130]。Dyna本質(zhì)上是監(jiān)督條件下的強(qiáng)化學(xué)習(xí)形式。之后,研究人員也進(jìn)行了許多嘗試。Ha和Schmidhuber [126]試圖通過利用無監(jiān)督方法——變分自編碼器(VAE)對(duì)輸入特征進(jìn)行編碼,并利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來學(xué)習(xí)狀態(tài)的演變。Hafner等人[131]提出了循環(huán)狀態(tài)空間模型(RSSM),該模型結(jié)合強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了融合隨機(jī)性和確定性的多步預(yù)測。基于RSSM架構(gòu),Hafner等人相繼提出了DreamerV1[132]、DreamerV2[133]、DreamerV3[134],在隱式變量中學(xué)習(xí)實(shí)現(xiàn)圖像預(yù)測生成。Gao等人[135]考慮到隱式中存在冗余信息,通過提出語義屏蔽循環(huán)世界模型(SEM2)來擴(kuò)展Dreamer系列的框架,學(xué)習(xí)相關(guān)驅(qū)動(dòng)狀態(tài)。Hu等人[136]去除了預(yù)測獎(jiǎng)勵(lì),提出了一種基于模型的模仿學(xué)習(xí)(MILE)方法來預(yù)測未來狀態(tài)。
可以看出,世界模型與強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)和深度生成模型高度相關(guān)。然而,在強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)中利用世界模型一般需要標(biāo)記數(shù)據(jù),所提到的SEM2和MILE方法都是在監(jiān)督范式內(nèi)進(jìn)行的。也有人嘗試基于標(biāo)記數(shù)據(jù)的局限性將強(qiáng)化學(xué)習(xí)和無監(jiān)督學(xué)習(xí)(UL)結(jié)合起來[137,138]。由于與SSL的密切關(guān)系,深度生成模型越來越受歡迎,該領(lǐng)域的研究人員進(jìn)行了許多嘗試。下面,我們將主要回顧生成世界模型在自動(dòng)駕駛中的探索性應(yīng)用;流程如圖7所示,“深度生成模型”部分介紹了各類深度生成模型的原理及其在生成驅(qū)動(dòng)場景中的應(yīng)用,“生成方法”部分介紹了生成世界模型在自動(dòng)駕駛中的應(yīng)用,“非生成方法”部分將介紹一類非生成方法。

圖7 利用世界模型增強(qiáng)自動(dòng)駕駛。世界模型首先通過觀察交通環(huán)境學(xué)習(xí)內(nèi)在演變規(guī)律,然后通過連接適應(yīng)不同駕駛?cè)蝿?wù)的不同解碼器來增強(qiáng)自動(dòng)駕駛功能。

 

4.1.   深度生成模型
深度生成模型通常包括VAEs[139,140]、生成對(duì)抗網(wǎng)絡(luò)(GANs)[28,141]、流模型[142,143]和自回歸模型(ARs)[144-146]。
VAEs結(jié)合了自編碼器和概率圖形模型的思想來學(xué)習(xí)底層數(shù)據(jù)結(jié)構(gòu)和生成新樣本。Rempe等人[147]使用VAE學(xué)習(xí)交通場景的先驗(yàn)分布,并模擬事故多發(fā)場景的生成。GANs由生成器和判別器組成,它們利用對(duì)抗性訓(xùn)練相互競爭和增強(qiáng),最終實(shí)現(xiàn)生成逼真樣本的目標(biāo)。Kim等人[148]使用GAN模型觀察未標(biāo)記視頻幀的序列及其關(guān)聯(lián)的動(dòng)作對(duì),以模擬動(dòng)態(tài)交通環(huán)境。流模型通過一系列可逆變換,將簡單的先驗(yàn)分布轉(zhuǎn)換為復(fù)雜的后驗(yàn)分布,從而生成相似的數(shù)據(jù)樣本。Kumar等人[149]使用流模型實(shí)現(xiàn)多幀視頻預(yù)測。ARs是一類序列分析方法,基于序列數(shù)據(jù)之間的自相關(guān)性,描述現(xiàn)在和過去的關(guān)系,模型參數(shù)的估計(jì)通常是利用最小二乘法和最大似然估計(jì)來完成的。例如,GPT使用最大似然估計(jì)進(jìn)行模型參數(shù)訓(xùn)練。Feng等人[150]實(shí)現(xiàn)了基于自回歸迭代的車輛未來軌跡的生成。Swerdlow等人[151]實(shí)現(xiàn)了基于自回歸transformer的街景圖像生成。擴(kuò)散模型是一種典型的自回歸方法,它從純?cè)肼晹?shù)據(jù)中學(xué)習(xí)逐步去噪的過程。擴(kuò)散模型憑借其強(qiáng)大的生成性能,是當(dāng)前深度生成模型中的新SOTA。[152-154]等工作證明了擴(kuò)散模型具有很強(qiáng)的理解復(fù)雜場景的能力,視頻擴(kuò)散模型可以生成更高質(zhì)量的視頻。[155,156]等工作利用擴(kuò)散模型生成了復(fù)雜多樣的駕駛場景。
4.2.   生成式方法
基于深度生成模型的強(qiáng)大能力,利用深度生成模型作為世界模型來學(xué)習(xí)駕駛場景以增強(qiáng)自動(dòng)駕駛已成為一種流行趨勢,以下部分將回顧利用深度生成模型作為世界模型,在自動(dòng)駕駛中的應(yīng)用。在表2中,我們提供了一些代表性工作的簡要概述。
表2 利用世界模型進(jìn)行預(yù)測的工作

4.2.1.基于點(diǎn)云的模型
Zhang 等人[157]在Maskgit[158]的基礎(chǔ)之上,并將其重構(gòu)(recast)為離散擴(kuò)散模型,用于點(diǎn)云預(yù)測。該方法利用VQ-VAE[159]對(duì)觀測數(shù)據(jù)進(jìn)行標(biāo)記化,以進(jìn)行無標(biāo)簽學(xué)習(xí)。Karlsson 等人[160]使用分層VAE構(gòu)建世界模型,使用潛在變量預(yù)測和對(duì)抗建模生成偽完整狀態(tài),將部分觀察與偽完整觀測值匹配以預(yù)測未來的狀態(tài),并在KITTI-360[161]數(shù)據(jù)集上對(duì)其進(jìn)行評(píng)估。特別的,它利用預(yù)訓(xùn)練的基于視覺的語義分割模型從原始圖像中進(jìn)行推斷。Bogdoll 等人[162]構(gòu)建了多模態(tài)自動(dòng)駕駛生成式世界模型MUVO,利用原始圖像和LiDAR數(shù)據(jù)來學(xué)習(xí)世界的幾何表示。該模式以動(dòng)作為條件,實(shí)現(xiàn)了3D占用預(yù)測,并可直接應(yīng)用于下游任務(wù)(如規(guī)劃)。類似地,Zheng等人[163]使用VQ-VAE來標(biāo)記3D占用場景,并構(gòu)建3D占用空間來學(xué)習(xí)可以預(yù)測自我意識(shí)車輛運(yùn)動(dòng)和駕駛場景演變的世界模型。為了獲得更細(xì)粒度的場景信息,Min等人[164]使用的未標(biāo)記image-LiDAR來預(yù)訓(xùn)練,以構(gòu)建可以生成4D幾何占用的世界模型。
4.2.2.基于圖像的模型
為解決預(yù)測駕駛場景未來變化的難題,Wayve提出了一種生成世界模型GAIA-1[165]。GAIA-1使用transformer作為世界模型來學(xué)習(xí)并預(yù)測輸入視頻、文本和動(dòng)作信號(hào)的下一個(gè)狀態(tài),然后生成逼真的駕駛場景。對(duì)于視頻流的學(xué)習(xí),GAIA-1采用了SSL,可以學(xué)習(xí)規(guī)模化的數(shù)據(jù)而獲得全面的環(huán)境理解。Wang 等人[166]設(shè)計(jì)了一個(gè)2階段訓(xùn)練策略。首先,采用擴(kuò)散模型來學(xué)習(xí)駕駛場景并獲得對(duì)結(jié)構(gòu)化交通的理解。然后利用視頻預(yù)測任務(wù)構(gòu)建了一個(gè)世界模型——DriveDreamer。值得注意的是,通過整合歷史駕駛行為,這種方法能夠生成未來的駕駛動(dòng)作。Zhao等人[167]通過結(jié)合LLM,在DriveDreamer框架之上構(gòu)建了DriveDreamer-2,根據(jù)用戶描述,LLM生成相應(yīng)的Agent軌跡,以及HDMap信息可控地生成駕駛視頻。Wang等人[168]通過聯(lián)合建模未來的多視圖和多幀來生成駕駛視頻。這種方法大大提高了生成結(jié)果的一致性,并在此基礎(chǔ)上生成了端到端的運(yùn)動(dòng)規(guī)劃。
在業(yè)內(nèi),在2023年CVPR自動(dòng)駕駛研討會(huì)上,特斯拉研究員Ashok Elluswamy介紹了他們?cè)诶蒙墒酱竽P蜕晌磥眈{駛場景方面的工作[169]。在演示中看到,特斯拉生成式大模型生成的視頻與從真實(shí)車輛中捕獲的視頻非常接近。它還可以生成類似標(biāo)注的語義信息,表明該模型也具有一些語義層面的理解和推理能力。特斯拉將他們的工作命名為“Learning a General World Model”,可以看出他們的理解是構(gòu)建一個(gè)通用的世界模型。通過從真實(shí)車輛中采集的大量視頻數(shù)據(jù)中學(xué)習(xí),特斯拉意在為自動(dòng)駕駛構(gòu)建一個(gè)大型FM,它可以理解世界的動(dòng)態(tài)演變。
4.2.3.視頻預(yù)測
視覺是人類獲取有關(guān)世界信息的最直接和最有效的手段之一,因?yàn)閳D像數(shù)據(jù)中包含的特征信息極其豐富。之前的眾多工作[132-134,138,170]都通過世界模型完成了圖像生成的任務(wù),證明了世界模型對(duì)圖像數(shù)據(jù)具有良好的理解和推理能力。然而,這些主要集中在圖像生成上,在能夠更好地體現(xiàn)世界動(dòng)態(tài)演變的視頻預(yù)測任務(wù)中仍然有所欠缺。視頻預(yù)測任務(wù)需要對(duì)世界演化有更深入的理解,也需要對(duì)下游任務(wù)有更強(qiáng)的指導(dǎo)意義。在研究工作[160,165]中,它們都有效地預(yù)測了生成的未來交通場景,其中SSL可能是關(guān)鍵。之前的工作也對(duì)此進(jìn)行了探索。Wichers等人[171利用原始圖像]訓(xùn)練了一個(gè)模型,并提出了一種結(jié)合低級(jí)像素空間和高級(jí)特征空間(如,地標(biāo))的分層長期視頻預(yù)測方法,與工作[134]相比,實(shí)現(xiàn)了更長時(shí)間的視頻預(yù)測。Endo等人[172]在SSL范式下構(gòu)建了一個(gè)模型,用于從單幀圖像中預(yù)測未來的交通場景以預(yù)測未來。Voleti等人[173]基于具有概率條件分?jǐn)?shù)的去噪擴(kuò)散模型,通過隨機(jī)屏蔽未標(biāo)記的過去幀或未來幀來訓(xùn)練模型,這允許逐塊自回歸生成任意長度的視頻。Finn等人[174]提出了在無監(jiān)督條件下與世界進(jìn)行物理交互,并通過預(yù)測前一幀像素運(yùn)動(dòng)的分布來實(shí)現(xiàn)視頻預(yù)測。Micheli等人[175]驗(yàn)證了利用自回歸Transformer作為世界模型的有效性,并通過SSL訓(xùn)練參數(shù)來實(shí)現(xiàn)游戲圖像的預(yù)測。Wu等人[176]構(gòu)建了一個(gè)以對(duì)象為中心的世界模型,以學(xué)習(xí)對(duì)象之間復(fù)雜的時(shí)空交互,并生成高視覺質(zhì)量的未來預(yù)測。
受到LLM的啟發(fā),Wang等人[177]將世界建模視為無監(jiān)督的視覺序列建模。使用VQ-GAN將視覺輸入映射為離散的標(biāo)記[178],然后使用時(shí)空轉(zhuǎn)換器預(yù)測掩碼tokens,以學(xué)習(xí)其中的物理演變規(guī)律,從而獲得在各種場景下生成視頻的能力。類似于LLM的tokens,OpenAI研究人員將視覺數(shù)據(jù)轉(zhuǎn)換為patches,以提出視頻生成模型Sora。為了解決視覺數(shù)據(jù)的高維性,他們將視覺數(shù)據(jù)壓縮到一個(gè)較低維的潛在空間中,然后在這個(gè)潛在空間中進(jìn)行擴(kuò)散生成,然后將這個(gè)表示映射回像素空間,實(shí)現(xiàn)視頻生成。通過從互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)中學(xué)習(xí),Sora實(shí)現(xiàn)了視頻域中的scaling law,Sora可以基于不同的提示生成連貫的高清視頻。同年,谷歌提出了一種生成式交互模型Genie[179],使用未標(biāo)記的互聯(lián)網(wǎng)游戲視頻進(jìn)行訓(xùn)練。特別是,Genie提出了一種潛在動(dòng)作模型來推斷每一幀之間的潛在動(dòng)作,并通過訓(xùn)練構(gòu)建了潛在動(dòng)作的碼本。使用時(shí)用戶選擇初始幀和指定的潛在動(dòng)作,并自回歸生成未來幀。隨著模型大小和批量大小的增加,Genie也出現(xiàn)了scaling result。相比之下,Sora旨在生成具有高保真、可變持續(xù)時(shí)間和分辨率的視頻內(nèi)容。雖然視頻質(zhì)量不如Sora先進(jìn),但Genie針對(duì)構(gòu)建生成式交互環(huán)境進(jìn)行了優(yōu)化,用戶可以在其中逐幀操作以生成視頻。
前面的研究證明了世界模型在增強(qiáng)自動(dòng)駕駛方面是有效的。世界模型可以直接嵌入到自動(dòng)駕駛模型中,以完成各種駕駛?cè)蝿?wù)。此外,還探索了學(xué)習(xí)從大規(guī)模視覺數(shù)據(jù)構(gòu)建通用世界模型,如Sora和Genie。這些FMs可以用于數(shù)據(jù)生成(將在“基于基礎(chǔ)模型的數(shù)據(jù)增強(qiáng)”部分討論)。此外,基于FMs的泛化能力,它們可以用于執(zhí)行大量下游任務(wù),甚至可以用于模擬世界。
4.3.   非生成式方法
與生成式世界模型相比,LeCun[128]通過提出基于能量模型(Energy-based Model)的聯(lián)合提取和預(yù)測架構(gòu)(Joint Extraction and Prediction Architecture,JEPA)來闡述世界模型的不同概念。這是一種非生成式的自監(jiān)督架構(gòu),因?yàn)樗恢苯訌妮斎離預(yù)測輸出y,而是將x編碼為sx以預(yù)測表示空間中的sy,如圖8所示。這有一個(gè)優(yōu)點(diǎn),即它不必預(yù)測關(guān)于y的所有信息,并且可以消除不相關(guān)的細(xì)節(jié)。
圖 8 生成法與非生成法的結(jié)構(gòu)比較 [184]。(A) 生成式架構(gòu)通過解碼器網(wǎng)絡(luò),以附加變量 z(可能是潛在變量)為條件,從兼容信號(hào) x 重構(gòu)信號(hào) y;(B) 聯(lián)合嵌入式預(yù)測架構(gòu)通過預(yù)測器網(wǎng)絡(luò),以附加變量 z(可能是潛在變量)為條件,從兼容信號(hào) x 預(yù)測信號(hào) y 的嵌入。

JEPA架構(gòu)自提出以來,以優(yōu)異的性能被幾位學(xué)者應(yīng)用于不同領(lǐng)域。在計(jì)算機(jī)視覺領(lǐng)域中,Skenderi等人[180]提出了Graph-JEPA,這是一種用于圖域的JEPA模型。它將輸入圖劃分為子圖,然后預(yù)測目標(biāo)子圖在上下文子圖中的表示。Graph-JEPA在圖分類和回歸問題上都獲得了優(yōu)異的性能。在音頻領(lǐng)域,F(xiàn)ei等人[181]提出了A-JEPA,它將掩碼建模原理應(yīng)用于音頻。經(jīng)過實(shí)驗(yàn)驗(yàn)證,A-JEPA已被證明在語音和音頻分類任務(wù)中表現(xiàn)良好。Sun等人提出了JEP-KD[182],它采用先進(jìn)的知識(shí)蒸餾方法來增強(qiáng)視覺語音識(shí)別(Visual Speech Recognition,VSR)的有效性,縮小其與自動(dòng)語音識(shí)別(Automatic Speech Recognition, ASR)之間的性能差距。
在CV領(lǐng)域,Bardes等人[183]提出了MC-JEPA,它采用JEPA架構(gòu)和SSL方法來實(shí)現(xiàn)光流和內(nèi)容特征的共同學(xué)習(xí),從而從視頻中學(xué)習(xí)動(dòng)態(tài)內(nèi)容特征。從視頻來看,MC-JEPA在各種任務(wù)中表現(xiàn)良好,包括光流估計(jì)以及圖像和視頻的分割。META[184]提出了I-JEPA,用于學(xué)習(xí)高度語義的圖像表示,而無需依賴于手動(dòng)數(shù)據(jù)增強(qiáng)。將I-JEPA與Vision Transformers結(jié)合使用,在各種任務(wù)中產(chǎn)生了強(qiáng)大的下游性能,包括線性分類、物體計(jì)數(shù)和深度預(yù)測。META在I-JEPA的基礎(chǔ)上,提出V-JEPA[185]將JEPA應(yīng)用于視頻領(lǐng)域。該方法將掩碼預(yù)測與JEPA架構(gòu)相結(jié)合,訓(xùn)練了一系列以特征預(yù)測為SSL目標(biāo)的V-JEPA模型。實(shí)驗(yàn)結(jié)果表明,這些模型在一系列CV下游任務(wù)中表現(xiàn)出優(yōu)異的性能,包括動(dòng)作識(shí)別、動(dòng)作分類和目標(biāo)分類。
迄今為止,以JEPA為代表的非生成式模型雖然并沒有在自動(dòng)駕駛領(lǐng)域得到直接的應(yīng)用,但卻存在巨大的潛力。首先,非生成世界模型不是在像素空間中預(yù)測視頻,而是在潛在空間中進(jìn)行特征預(yù)測。這消除了許多不相關(guān)的細(xì)節(jié)。例如,在自動(dòng)駕駛的場景預(yù)測任務(wù)中,我們對(duì)當(dāng)前道路上其他交通參與者的未來運(yùn)動(dòng)更感興趣。此外,對(duì)于不在自動(dòng)駕駛車輛當(dāng)前道路上的其他車輛,例如,比如說旁邊與當(dāng)前道路平行的高架上的其他車輛,我們不考慮它們未來的運(yùn)動(dòng)軌跡。JEPA模型消除了這些不相關(guān)的細(xì)節(jié),并降低了問題的復(fù)雜性。此外,V-JEPA已經(jīng)展示了它在視頻中學(xué)習(xí)特征的能力。通過分析足夠多的駕駛視頻,預(yù)計(jì)V-JEPA將廣泛用于生成駕駛場景和預(yù)測未來環(huán)境狀態(tài)等任務(wù)。5 基于基礎(chǔ)模型的數(shù)據(jù)增強(qiáng)
隨著深度學(xué)習(xí)的不斷發(fā)展,以預(yù)訓(xùn)練和微調(diào)為基礎(chǔ)架構(gòu)的FMs的性能正在提高。FMs正在引領(lǐng)從規(guī)則驅(qū)動(dòng)的轉(zhuǎn)變數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)范式。數(shù)據(jù)作為模型學(xué)習(xí)的一個(gè)關(guān)鍵方面的重要性是顯而易見的。大量數(shù)據(jù)被用于自動(dòng)駕駛模型的訓(xùn)練過程,以促進(jìn)模型在不同駕駛場景下的理解和決策能力。然而,現(xiàn)實(shí)數(shù)據(jù)的收集是一個(gè)費(fèi)時(shí)費(fèi)力的過程,因此數(shù)據(jù)增強(qiáng)對(duì)于提高自動(dòng)駕駛模型的泛化能力至關(guān)重要。
數(shù)據(jù)增強(qiáng)的實(shí)現(xiàn)需要考慮兩個(gè)方面:一方面,如何獲取大規(guī)模數(shù)據(jù),使反饋到自動(dòng)駕駛系統(tǒng)的數(shù)據(jù)具有多樣性和廣泛性,另一方面,如何獲取盡可能多的高質(zhì)量數(shù)據(jù),使用于訓(xùn)練和測試自動(dòng)駕駛模型的數(shù)據(jù)具有準(zhǔn)確性和可靠性,相關(guān)工作也大致選擇了兩個(gè)方向來增強(qiáng)自動(dòng)駕駛數(shù)據(jù),一是豐富現(xiàn)有數(shù)據(jù)集的數(shù)據(jù)內(nèi)容,增強(qiáng)駕駛場景的數(shù)據(jù)特征,二是通過仿真生成多層次的駕駛場景。下面將對(duì)基于FMs增強(qiáng)數(shù)據(jù)的相關(guān)工作進(jìn)行綜述,在“自動(dòng)駕駛數(shù)據(jù)集的擴(kuò)展”部分,我們描述了擴(kuò)展數(shù)據(jù)集的相關(guān)工作,在“駕駛場景的生成”部分,我們描述了生成駕駛場景的相關(guān)工作。表3簡要概述了一些代表性工作。
表3 有關(guān)數(shù)據(jù)增強(qiáng)的工作

5.1.   擴(kuò)展自動(dòng)駕駛數(shù)據(jù)集
現(xiàn)有的自動(dòng)駕駛數(shù)據(jù)集大多是通過記錄傳感器數(shù)據(jù),然后對(duì)數(shù)據(jù)進(jìn)行標(biāo)注來獲得的。這樣獲得的數(shù)據(jù)的特征通常是低級(jí)的,更多地存在于數(shù)字表示層面,對(duì)于自動(dòng)駕駛場景的視覺空間特征表征來說是不夠的。自然語言描述被視為增強(qiáng)場景表示的有效方式[79];Flickr30k[186]、RefCOCO[187]、RefCOCOg[188]和CLEVR-Ref[189]使用簡潔的自然語言描述來確定圖像中相應(yīng)的視覺區(qū)域。Talk2Car[190]融合了圖像、雷達(dá)和激光雷達(dá)數(shù)據(jù),構(gòu)建了第一個(gè)包含自動(dòng)駕駛汽車自然語言命令的對(duì)象引用數(shù)據(jù)集。然而,Talk2Car數(shù)據(jù)集一次只允許引用一個(gè)對(duì)象。CityFlow-NL[191]通過自然語言描述構(gòu)建了用于多目標(biāo)跟蹤的數(shù)據(jù)集,ReferKITTI[192]通過在相應(yīng)任務(wù)中利用語言查詢實(shí)現(xiàn)了對(duì)任意目標(biāo)跟蹤的預(yù)測。FMs在其高級(jí)語義理解、推理和解釋能力下,為豐富和擴(kuò)展自動(dòng)駕駛數(shù)據(jù)集提供了新思路。Qian等人[193]通過語言模型編碼問題描述,并與傳感器數(shù)據(jù)進(jìn)行特征融合獲取回答,創(chuàng)建了3D多視圖駕駛場景下的自動(dòng)駕駛視覺問答數(shù)據(jù)集NuScenes-QA,在語言提示的使用方面取得了重大進(jìn)展。Wu等人[194]在NuScenes-QA的基礎(chǔ)上進(jìn)行了拓展,通過語言元素采集、組合,再調(diào)用LLM生成描述構(gòu)建了數(shù)據(jù)集NuPrompt。該數(shù)據(jù)集提供更精細(xì)的匹配3D實(shí)例和每個(gè)提示,這有助于更準(zhǔn)確地表征自動(dòng)駕駛儀圖像中的物體。Sima等人[115]考慮到交通要素的相互作用,通過用BLIP-2擴(kuò)展nuScenes數(shù)據(jù)集[195]構(gòu)建了Graph Visual Question Answering,可以更好地闡明對(duì)象之間的邏輯依賴關(guān)系和駕駛?cè)蝿?wù)的層次結(jié)構(gòu)。除了直接擴(kuò)展增強(qiáng)的自主數(shù)據(jù)集,一些學(xué)者還整合了LLM的CoT能力和視覺模型的跨模態(tài)能力,構(gòu)建了一個(gè)自動(dòng)標(biāo)注系統(tǒng)OpenAnnotate3D[196],可用于多模態(tài)3D數(shù)據(jù)。通過利用基礎(chǔ)模型的高級(jí)理解、推理和解釋能力來擴(kuò)展數(shù)據(jù)集,有助于更好地評(píng)估自動(dòng)駕駛系統(tǒng)的可解釋性和控制性,從而提高自動(dòng)駕駛系統(tǒng)的安全性和可靠性。一些代表性工作的比較如表4所示。
表4 擴(kuò)展數(shù)據(jù)集的比較,“-"表示無法獲得

5.2.   生成駕駛場景
駕駛場景的多樣性對(duì)于自動(dòng)駕駛來說具有相當(dāng)重要的意義,自動(dòng)駕駛模型要獲得更好的泛化能力,必須學(xué)習(xí)種類繁多的場景。然而,現(xiàn)實(shí)情況是駕駛場景符合長尾分布(在其中很大一部分觀察或?qū)嵗性诜植嫉奈膊?,遠(yuǎn)離中心或均值。)自動(dòng)駕駛車輛的“長尾問題”是,自動(dòng)駕駛車輛能夠處理所經(jīng)常遇到的正常場景,但面對(duì)一些罕見或極端情況下的邊緣場景應(yīng)對(duì)不佳或無法應(yīng)對(duì)。為了解決長尾問題,關(guān)鍵是獲得盡可能多的極端情況。盡管如此,將收集限制在真實(shí)場景中是低效的。例如,在邊緣場景挖掘的工作CODA[197]中,100萬數(shù)據(jù)中只有1,057個(gè)有效數(shù)據(jù)。
鑒于上述情況,大規(guī)模和高質(zhì)量駕駛場景數(shù)據(jù)的生成需要主動(dòng)生成大量駕駛場景的能力。傳統(tǒng)方法可以分為兩大類:基于規(guī)則的和數(shù)據(jù)驅(qū)動(dòng)的?;谝?guī)則的方法[198-201]需要使用預(yù)定義的規(guī)則,不足以表征復(fù)雜環(huán)境,模擬的環(huán)境較為簡單,并且表現(xiàn)出有限的泛化能力。相比之下,數(shù)據(jù)驅(qū)動(dòng)方法[202-205]利用駕駛數(shù)據(jù)來訓(xùn)練模型,使其能夠不斷學(xué)習(xí)和適應(yīng)。然而,數(shù)據(jù)驅(qū)動(dòng)方法通常需要大量標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,阻礙了駕駛場景生成的進(jìn)一步發(fā)展。此外,這種方法可控性不強(qiáng),不適合自定義生成。最近,F(xiàn)Ms取得了巨大的成功,通過FMs生成更高質(zhì)量的駕駛場景也引起了重要的研究關(guān)注。一方面,基于FMs強(qiáng)大的理解和推理能力,可以增強(qiáng)數(shù)據(jù)生成的多樣性和準(zhǔn)確性。另一方面,可以設(shè)計(jì)不同的提示進(jìn)行可控生成。
5.2.1.基于LLMs和VLMs
針對(duì)一些長尾場景永遠(yuǎn)無法在多視角鏡頭中收集的事實(shí),Yang等人[206]融合了語言提示、BEV sketch和多視角噪聲來設(shè)計(jì)一個(gè)兩階段生成網(wǎng)絡(luò)BEVControl,用于合成逼真的街道場景圖像。盡管如此,BEVControl不足以對(duì)前景和背景細(xì)節(jié)信息進(jìn)行建模。為了解決獲得大規(guī)模BEV表示的困難,Li等人[207]開發(fā)了一個(gè)時(shí)空一致的擴(kuò)散框架DrivingDiffsion,以自回歸生成由3D布局控制的逼真多視圖視頻。通過將本地提示輸入引入視覺模型,可以有效地增強(qiáng)生成數(shù)據(jù)的質(zhì)量。對(duì)于可控生成,Wen等人[208]集成了語言提示、圖像條件和BEV序列,設(shè)計(jì)了一個(gè)可控模塊,以提高駕駛場景生成的可控性。Gao等人[209]通過將文本提示與相機(jī)位姿、道路地圖和對(duì)象框融合控制相結(jié)合來設(shè)計(jì)3D幾何控制,以生成多樣化的道路場景。
基于LLMs和VLMs強(qiáng)大的理解和推理能力,將其直接嵌入或引導(dǎo)模型生成駕駛場景也成為研究熱點(diǎn)。Marathe等人[210]通過提示利用VLM有效地生成了包含16個(gè)極端天氣的數(shù)據(jù)集。盡管如此,由于數(shù)據(jù)選擇中存在預(yù)選定現(xiàn)象,該模型存在一些擴(kuò)展約束。Chen等人[124]通過對(duì)強(qiáng)化學(xué)習(xí)智能體收集的控制命令和LLM生成的問題答案進(jìn)行配對(duì)直接構(gòu)建一個(gè)新的數(shù)據(jù),實(shí)現(xiàn)了數(shù)字矢量模態(tài)與自然語言的結(jié)合。Zhong等人[211]提出了一種基于場景級(jí)擴(kuò)散的語言引導(dǎo)交通仿真模型CTG++,可以生成符合指令的、逼真、可控的交通場景。Wang等人[75]利用自然語言描述作為概念表述與LLM集成,通過利用其強(qiáng)大的常識(shí)推理能力來豐富生成場景的復(fù)雜性。人類駕駛員的行為也是駕駛場景的重要組成部分,jin 等人[212]一種基于LLM的城市環(huán)境中的生成式駕駛代理模擬框架SurrealDriver,通過分析和學(xué)習(xí)真實(shí)駕駛數(shù)據(jù),SurrealDriver可以捕捉駕駛員的行為模式和決策過程,并生成與真實(shí)駕駛中相似的行為序列。
5.2.2.基于世界模型
為了實(shí)現(xiàn)駕駛場景的可控性生成,Wang等人[166]結(jié)合文本提示和結(jié)構(gòu)化交通約束,用文本描述來引導(dǎo)像素點(diǎn)的生成。為了獲得更準(zhǔn)確的動(dòng)態(tài)信息,Wang 等人[168]將駕駛動(dòng)作融入可控架構(gòu),利用文本描述、布局和自我動(dòng)作來控制視頻生成。然而,這些方法引入了更多的結(jié)構(gòu)信息,這限制了模型的交互性。為了解決這個(gè)問題,Zhao等人[167]提出了一種將LLM與世界模型相結(jié)合的新穎方法。這種方法涉及使用LLM將用戶查詢轉(zhuǎn)換為代理的軌跡,然后用于生成HDMap,再引導(dǎo)駕駛視頻的生成。
利用駕駛場景的FMs可以實(shí)現(xiàn)高效和準(zhǔn)確的可控性生成。這將能夠?yàn)槟P吞峁┒鄻踊挠?xùn)練數(shù)據(jù),這對(duì)于提高自動(dòng)駕駛系統(tǒng)的泛化能力很重要。一些代表性工作的比較如表5所示。此外,生成的駕駛場景可用于評(píng)估不同的自動(dòng)駕駛模型,以測試和驗(yàn)證其性能。當(dāng)然,我們也應(yīng)該能夠看到,隨著Sora和Genia等各種大規(guī)模FMs的出現(xiàn),自動(dòng)駕駛視頻的生成提供了新的潛在思路。模型不限于駕駛領(lǐng)域,而是可以利用從通用視頻領(lǐng)域訓(xùn)練中獲得的模型用于遷移學(xué)習(xí)。雖然目前該領(lǐng)域的技術(shù)還不完善,但我們相信,未來隨著相關(guān)技術(shù)的突破,我們甚至可以利用它們生成我們需要的各種駕駛場景,真正學(xué)習(xí)一個(gè)模擬世界的世界模型。
表5 nuScenes 數(shù)據(jù)集的視頻生成性能,-"表示不可獲得。FID 指示器和 FVD 指示器分別提供圖像和視頻質(zhì)量的反饋。

6 結(jié)論和未來方向
本文對(duì)FMs在自動(dòng)駕駛領(lǐng)域的應(yīng)用做了較為全面的綜述。在“基于語言和視覺模型的類人駕駛”部分,詳細(xì)總結(jié)了LLMs和VLMs等基礎(chǔ)模型應(yīng)用于自動(dòng)駕駛的最新工作。在“基于世界模型的自動(dòng)駕駛預(yù)測”部分,我們展示了世界模型在自動(dòng)駕駛領(lǐng)域的探索性應(yīng)用。在“基于基礎(chǔ)模型的數(shù)據(jù)增強(qiáng)”部分,詳細(xì)介紹了FMs數(shù)據(jù)增強(qiáng)的最新工作??傮w而言,F(xiàn)Ms可以在增強(qiáng)數(shù)據(jù)和優(yōu)化模型方面有效地輔助自動(dòng)駕駛。
為了評(píng)估FMs在自動(dòng)駕駛中的有效性,我們?cè)诒?中比較了不同的FMs和傳統(tǒng)方法在運(yùn)動(dòng)規(guī)劃中的有效性。由于LLM和VLM的相對(duì)成熟,可以觀察到基于它們的增強(qiáng)自動(dòng)駕駛的方法總體上得到了改進(jìn)。相比之下,基于WMs的方法仍在進(jìn)一步探索中,發(fā)表的工作相對(duì)較少。盡管如此,通過前面的分析,我們也可以看到世界模型擅長學(xué)習(xí)物理世界的演變規(guī)律,在增強(qiáng)自動(dòng)駕駛方面有巨大潛力。
表6 nuScenes 驗(yàn)證數(shù)據(jù)集上的運(yùn)動(dòng)規(guī)劃性能

挑戰(zhàn)和未來方向. 盡管如此,從以前的研究中可以明顯看出,基于FMs的自動(dòng)駕駛技術(shù)還不夠成熟。這種現(xiàn)象可以歸因于幾個(gè)因素。FMs存在幻覺問題[213,214],以及學(xué)習(xí)視頻這一高維連續(xù)模式仍然存在局限性。此外,還應(yīng)考慮推理延遲[215,216]引起的部署問題以及潛在的倫理影響和社會(huì)影響。
幻覺. 幻覺錯(cuò)誤問題在自動(dòng)駕駛中主要表現(xiàn)為的誤識(shí)別,如目標(biāo)檢測錯(cuò)誤,可能造成嚴(yán)重的安全事故。幻覺問題的產(chǎn)生主要是由于數(shù)據(jù)集樣本有限或模型受到不平衡或噪聲數(shù)據(jù)的影響,需要利用擴(kuò)展數(shù)據(jù)和對(duì)抗性訓(xùn)練來增強(qiáng)穩(wěn)定性和泛化能力。
實(shí)際部署. 如前所述,當(dāng)前關(guān)于自動(dòng)駕駛中的FM的大多數(shù)研究都是基于開源數(shù)據(jù)集實(shí)驗(yàn)[95,121]或仿真環(huán)境中的閉環(huán)實(shí)驗(yàn)[105,119],這對(duì)于實(shí)時(shí)性的考慮是不夠的。此外,一些研究[215,216]強(qiáng)調(diào)大型模型具有一定的推理延遲,這可能會(huì)導(dǎo)致自動(dòng)駕駛應(yīng)用中的重大安全問題。為了進(jìn)一步探索FM對(duì)于自動(dòng)駕駛中實(shí)時(shí)應(yīng)用的有效性,我們進(jìn)行了一項(xiàng)實(shí)驗(yàn)[217]。我們使用低秩自適應(yīng)(LoRA)[218]來微調(diào)LLaMA-7B[78],微調(diào)的LLM可以推理生成駕駛語言命令。為了驗(yàn)證其在駕駛場景下的實(shí)時(shí)性能,我們分別在單個(gè)GPU A800和單個(gè)GPU 3080上進(jìn)行推理,生成6個(gè)tokens所需的時(shí)間分別為0.9秒和1.2秒,有效驗(yàn)證了FM的車端部署是可能的。同時(shí),Tian等人的DriveVLM[94]工作也在NVIDIA Orin平臺(tái)上實(shí)現(xiàn)了二級(jí)部署推理,進(jìn)一步支持了車載FM的可行性。未來,隨著邊緣計(jì)算和車載計(jì)算能力的提升[219],可能會(huì)逐步走向向車端、路端和云端的混合部署模式過渡,進(jìn)一步提高實(shí)時(shí)響應(yīng)能力和隱私保護(hù)水平。
AI 對(duì)齊. FMs深入到包括自動(dòng)駕駛在內(nèi)的各個(gè)行業(yè)是一個(gè)主要趨勢。盡管如此,隨著相關(guān)研究的繼續(xù),人類社會(huì)面臨的風(fēng)險(xiǎn)也在繼續(xù)。先進(jìn)AI系統(tǒng)表現(xiàn)出不良行為(例如欺騙)是一個(gè)令人擔(dān)憂的原因,尤其是在自動(dòng)駕駛這種直接關(guān)系到人身安全的領(lǐng)域領(lǐng)域,需要認(rèn)真討論和思考。對(duì)此,已經(jīng)提出了AI Alignment并得到發(fā)展。AI Alignment的目標(biāo)是使AI系統(tǒng)的行為與人類的意圖和價(jià)值觀保持一致。這種方法側(cè)重于AI系統(tǒng)的目標(biāo),而不是它們的能力[220]。AI Alignment有助于先進(jìn)AI系統(tǒng)在各個(gè)領(lǐng)域?qū)嵤r(shí)的風(fēng)險(xiǎn)可控、操作穩(wěn)健性、人類倫理性和可解釋性[221],這是一個(gè)龐大的涉及眾多AI相關(guān)領(lǐng)域的研究體系。由于本文集中在自動(dòng)駕駛領(lǐng)域,并沒有深入研究風(fēng)險(xiǎn)原因和解決方案的細(xì)節(jié),我們?cè)诖瞬辉龠M(jìn)一步闡述。在自動(dòng)駕駛領(lǐng)域,需要注意的是,在推動(dòng)FMs應(yīng)用的同時(shí),研究人員必須在AI Alignment的指導(dǎo)下建立合理的技術(shù)倫理。這包括關(guān)注算法公平、數(shù)據(jù)隱私、系統(tǒng)安全和人機(jī)關(guān)系等問題。此外,促進(jìn)技術(shù)發(fā)展和社會(huì)價(jià)值觀的統(tǒng)一以避免潛在的倫理和社會(huì)風(fēng)險(xiǎn)至關(guān)重要。
視覺涌現(xiàn)能力. FMs隨著模型的擴(kuò)大出現(xiàn)涌現(xiàn)能力,并在NLP方面取得了成功。然而,在自動(dòng)駕駛的背景下,由于有限的可用數(shù)據(jù)和擴(kuò)展的上下文長度問題,這方面的研究面臨著額外的開放性挑戰(zhàn)。這些挑戰(zhàn)導(dǎo)致對(duì)宏觀駕駛場景的理解不足,從而使該領(lǐng)域的長期規(guī)劃復(fù)雜化。駕駛視頻是一種高維連續(xù)模態(tài),數(shù)據(jù)量極大(與文本數(shù)據(jù)相比要大幾個(gè)數(shù)量級(jí))。因此,訓(xùn)練視覺大模型需要更宏觀的場景分布,來嵌入足夠的視頻幀來推理復(fù)雜的動(dòng)態(tài)場景,這需要更強(qiáng)大的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練策略來學(xué)習(xí)這些信息。Bai等人[222]在最近的一項(xiàng)研究中提出了一種兩階段方法,其中圖像被轉(zhuǎn)換為離散的tokens以獲得“視覺句子”,然后進(jìn)行自回歸預(yù)測,類似于LM[13]的標(biāo)準(zhǔn)方法。另一個(gè)有希望的解決方案可能在于世界模型 ,正如“基于世界模型的自動(dòng)駕駛預(yù)測”部分所述,世界模型可以通過觀察少量與任務(wù)相關(guān)或不相關(guān)的事件來學(xué)習(xí)世界的內(nèi)在進(jìn)化規(guī)律。然而,世界模型在探索性應(yīng)用中也有一定的局限性,在探索性應(yīng)用中,模型預(yù)測結(jié)果的不確定性,以及學(xué)習(xí)什么樣的數(shù)據(jù)可以捕獲世界運(yùn)作的內(nèi)在規(guī)律仍值得進(jìn)一步探索。
綜上所述,雖然將FMs應(yīng)用于自動(dòng)駕駛有許多挑戰(zhàn)需要解決,但其潛力已經(jīng)開始顯現(xiàn),未來我們將繼續(xù)監(jiān)測FMs應(yīng)用于自動(dòng)駕駛的進(jìn)展。

 

 

 

 
關(guān)于我們:ICC鑫欏資訊成立于2010年,主要服務(wù)于炭素、鋰電、電爐鋼3大行業(yè),是中國領(lǐng)先的專業(yè)產(chǎn)業(yè)研究和顧問公司。鑫欏資訊以研究為中心,提供媒體資訊、研究咨詢、數(shù)據(jù)庫和市場營銷等解決方案。
鑫欏鋰電專注于鋰電池原材料、鋰電池及其下游等相關(guān)產(chǎn)業(yè)鏈跟蹤,對(duì)市場價(jià)格、行情動(dòng)態(tài)等資訊的搜集與研究,常年跟蹤行業(yè)內(nèi)400多家生產(chǎn)企業(yè),擁有完善的產(chǎn)業(yè)數(shù)據(jù)庫。根據(jù)企業(yè)需求提供定制報(bào)告,為企業(yè)提供專業(yè)化服務(wù)。
鑫欏鋰電以研究為中心,服務(wù)于行業(yè)企業(yè)、金融機(jī)構(gòu)(一二級(jí)市場私募基金/券商/銀行等)、高校/科研院所、政府等,為客戶提供的獨(dú)特洞見、分析和資源,幫助客戶高效決策,以實(shí)現(xiàn)高質(zhì)量的業(yè)務(wù)增長。

[ 資訊搜索 ]  [ 加入收藏 ]  [ 告訴好友 ]  [ 打印本文 ]  [ 關(guān)閉窗口 ]

 

 
資訊瀏覽
市場報(bào)價(jià)
 
| 版權(quán)隱私 | 使用協(xié)議 | 網(wǎng)站服務(wù) | 聯(lián)系方式 | 關(guān)于我們
電話:021-50184981   電子郵箱:service@iccsino.com   地址:上海市浦東新區(qū)商城路506號(hào)新梅聯(lián)合廣場B座21樓D  郵編:200122  滬ICP備2022024271號(hào)-1