肖仰華:大模型驅(qū)動(dòng)智能駕駛邁向通用人工智能時(shí)代
作者:
AO記者 陳秀娟
2025-09-04 09:32
8月29日下午,由成都國(guó)際車(chē)展組委會(huì)、《汽車(chē)觀察》聯(lián)合主辦的2025汽車(chē)先鋒思享薈在成都天府國(guó)際會(huì)議中心成功舉辦。在主題演講環(huán)節(jié),復(fù)旦大學(xué)教授、博導(dǎo),上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任肖仰華博士以《大模型驅(qū)動(dòng)智能駕駛》為主題發(fā)表了精彩演講。
“當(dāng)方向盤(pán)不再受限于雙手,人類的探索與創(chuàng)造將駛向更廣闊的未來(lái)。盡管挑戰(zhàn)存在,但大模型驅(qū)動(dòng)智能駕駛的方向明確,隨著技術(shù)持續(xù)迭代、數(shù)據(jù)體系不斷完善,智能駕駛必將重塑交通生態(tài),為人類出行帶來(lái)根本性革新。”肖仰華稱。
肖仰華指出,大模型已成為AI時(shí)代的新型基礎(chǔ)設(shè)施。
大模型成為新型基礎(chǔ)設(shè)施,人工智能成就技術(shù)元革命
肖仰華表示,過(guò)去幾年人工智能技術(shù)發(fā)展迅猛,2023年底ChatGPT的發(fā)布堪稱里程碑事件,當(dāng)時(shí)眾多專家認(rèn)為通用人工智能(AGI)曙光初現(xiàn),意味著在開(kāi)放任務(wù)中全面達(dá)到人類水平的智能已逐步臨近。此后,各類大模型如語(yǔ)言模型、視覺(jué)模型、具身大模型等紛紛涌現(xiàn),人類正加速邁入智能時(shí)代。
在肖仰華看來(lái),AI已具備非凡創(chuàng)造力。在藝術(shù)創(chuàng)作領(lǐng)域,AI生成的作品《太空歌劇院》在美國(guó)科羅拉多州藝術(shù)博覽會(huì)上斬獲冠軍,充分證明其創(chuàng)造力已達(dá)到人類專家水平;在科研領(lǐng)域,2024年諾貝爾獎(jiǎng)的物理獎(jiǎng)、化學(xué)獎(jiǎng)都頒發(fā)給了跟人工智能相關(guān)的專家,人工智能驅(qū)動(dòng)已經(jīng)成為科研新范式。更令人震撼的是,大模型在人類所擅長(zhǎng)認(rèn)知任務(wù)中超越人類,傳統(tǒng)教育塑造的人類核心認(rèn)知能力素養(yǎng)被AI超越,例如OpenAI大模型在奧數(shù)比賽中達(dá)到人類冠軍水平,主流大模型在2025年高考中普遍達(dá)到985水平分?jǐn)?shù),AI智能體Zochi關(guān)于大模型安全的論文被ACL錄用,這些突破都表明人工智能正引發(fā)一場(chǎng)深刻的技術(shù)革命。
肖仰華強(qiáng)調(diào),這場(chǎng)技術(shù)革命與農(nóng)耕時(shí)代、蒸汽時(shí)代、電氣時(shí)代、數(shù)字化時(shí)代、信息化時(shí)代等歷次革命有著本質(zhì)區(qū)別。歷次技術(shù)突破只是人類智能的產(chǎn)物,而唯獨(dú)通用人工智能是“智能”本身的革命,是一場(chǎng)技術(shù)元革命。
如今,大模型已成為AI時(shí)代的新型基礎(chǔ)設(shè)施,融入生產(chǎn)生活各個(gè)角落,不僅是數(shù)據(jù)要素價(jià)值變現(xiàn)、人工智能技術(shù)發(fā)展的重要形式,更是新質(zhì)生產(chǎn)力的代表,是推動(dòng)我國(guó)經(jīng)濟(jì)高質(zhì)量發(fā)展的重要引擎。這一點(diǎn)在2025年政府工作報(bào)告中也得到體現(xiàn)——“大模型”首次被寫(xiě)入報(bào)告,明確提出支持大模型廣泛應(yīng)用,發(fā)展智能網(wǎng)聯(lián)新能源汽車(chē)等新一代智能終端。
人工智能推動(dòng)智能駕駛轉(zhuǎn)型升級(jí),數(shù)據(jù)仍是最大挑戰(zhàn)
在大模型技術(shù)的推動(dòng)下,智能駕駛產(chǎn)業(yè)迎來(lái)爆發(fā)式增長(zhǎng)。據(jù)肖仰華介紹,當(dāng)前智能駕駛產(chǎn)業(yè)規(guī)模已突破萬(wàn)億,促進(jìn)通行效率提升15%~30%,推動(dòng)GDP增長(zhǎng)2.4%~4.8%。在肖仰華看來(lái),智能駕駛技術(shù)的每一次升級(jí),都與人工智能技術(shù)突破緊密相關(guān),大模型、生成式人工智能技術(shù)是推動(dòng)自動(dòng)駕駛從當(dāng)前的L2/3到L4、L5發(fā)展的主要推動(dòng)力。智能駕駛技術(shù)的發(fā)展歷程可劃分為四個(gè)階段。
第一階段是基于規(guī)則的自動(dòng)駕駛,依托專家系統(tǒng)技術(shù),通過(guò)編寫(xiě)規(guī)則在封閉場(chǎng)景(如車(chē)庫(kù)、廠房)實(shí)現(xiàn)自動(dòng)化駕駛,但該方案規(guī)則編寫(xiě)成本高、泛化性差,無(wú)法適應(yīng)開(kāi)放道路場(chǎng)景。
第二階段是模塊化自動(dòng)駕駛,借助機(jī)器學(xué)習(xí)技術(shù),將感知、定位、決策、控制等能力拆解成獨(dú)立模塊或模型,針對(duì)每個(gè)模塊單獨(dú)進(jìn)行訓(xùn)練和優(yōu)化,雖具備可解釋、可驗(yàn)證、可調(diào)試的優(yōu)勢(shì),但模塊化方案也帶來(lái)了大量科學(xué)問(wèn)題,模塊級(jí)聯(lián)存在誤差累積與傳播,維護(hù)成本高,且性能提升有限。
第三階段是數(shù)據(jù)驅(qū)動(dòng)的端到端自動(dòng)駕駛,通過(guò)大規(guī)模數(shù)據(jù)集和訓(xùn)練算法,模型能夠端到端學(xué)習(xí)人類開(kāi)車(chē)操作,典型代表為特斯拉FSD技術(shù)。不過(guò)純視覺(jué)數(shù)據(jù)端到端訓(xùn)練,對(duì)數(shù)據(jù)與算力有著較高要求,在罕見(jiàn)或快速變化場(chǎng)景下易出現(xiàn)語(yǔ)義脆弱性問(wèn)題。
第四階段是大模型驅(qū)動(dòng)的端到端自動(dòng)駕駛,隨著GPU等算力提升,大規(guī)模參數(shù)模型實(shí)現(xiàn)了“感知 - 決策”一體化,有效避免誤差累積,而大語(yǔ)言模型的成熟進(jìn)一步賦予系統(tǒng)開(kāi)放世界理解能力——例如面對(duì)訓(xùn)練數(shù)據(jù)中未出現(xiàn)的松鼠,系統(tǒng)能基于大模型習(xí)得的世界知識(shí),預(yù)判松鼠的運(yùn)動(dòng)軌跡并做出避讓規(guī)劃。
肖仰華進(jìn)一步指出,當(dāng)前智能駕駛技術(shù)正朝著“視覺(jué) - 語(yǔ)言 - 行動(dòng)”(VLA)融合驅(qū)動(dòng)的方向演進(jìn)。“依托具身智能技術(shù),VLA模型將視覺(jué)感知、語(yǔ)言理解與駕駛策略統(tǒng)一建模,把路況轉(zhuǎn)化為語(yǔ)義表征,通過(guò)推理直接生成決策。目前VLA技術(shù)正從實(shí)驗(yàn)室階段走向了實(shí)際應(yīng)用和量產(chǎn)階段,有望在兩三年內(nèi)實(shí)現(xiàn)大規(guī)模量產(chǎn)。”
盡管智能駕駛前景廣闊,但肖仰華認(rèn)為,目前仍面臨著倫理困境、數(shù)學(xué)瓶頸、泛化性局限、數(shù)據(jù)稀缺等諸多挑戰(zhàn)。談及數(shù)據(jù)之于智能駕駛的重要性,肖仰華強(qiáng)調(diào),數(shù)據(jù)仍是智能駕駛發(fā)展的關(guān)鍵。多場(chǎng)景、高質(zhì)量、細(xì)標(biāo)注的駕駛數(shù)據(jù)是訓(xùn)練高級(jí)別自動(dòng)駕駛模型的基礎(chǔ)。隨著智駕車(chē)輛普及,每日產(chǎn)生的數(shù)據(jù)量達(dá)數(shù)千GB,如何高效利用這些數(shù)據(jù)成為核心問(wèn)題。