天天看點

智駕「新歡」端到端,急不來

作者:高工智能汽車

端到端攪局,自動駕駛的商業化分水嶺正在顯現。

前不久有消息稱,通用汽車公司将向其自動駕駛汽車子公司Cruise注資8.5億美元,以使Cruise的營運持續到明年第一季度,同時該公司也将考慮Cruise下一步的戰略和資金安排。

本月的一場會議上,通用汽車首席财務官Paul Jacobson則表示,Cruise正處于非常重要的研發階段,不僅僅是因為其自動駕駛計程車概念,更是為了實作個人自動駕駛出行。

自去年10月,一輛Cruise的自動駕駛計程車,撞傷并拖拽了一名女性數米遠,被吊銷了營運無人駕駛汽車的許可證。作為Cruise的母公司,通用汽車暫停了所有自動駕駛計程車的營運。

可見,曆經撞消防車、阻擋救護車、集體熄火導緻交通阻塞等風波,通用汽車仍繼續押注Robotaxi。Cruise不僅獲得母公司追加投資,還重新開機了在美國鳳凰城和達拉斯地區的自動駕駛汽車測試,并增加了在休斯頓的測試。

與此前自動駕駛頻頻遇冷,牽動全行業商業化進度有所不同,端到端等新技術路線的攪局,似乎正在拉開玩家們的商業化差距,燒錢多年的通用汽車和Cruise不得不急。

比如,另一家自動駕駛公司Wayve,不僅實作了在倫敦市中心的自動駕駛,還拿下了軟銀、英偉達和微軟等投資的10.5億美元C輪融資。

而Wayve的上述成就,本質上得益于其新更新的自動駕駛模型架構,包括四個主要模型:端到端深度學習系統(AV2.0)、Fleet Learning Loop、LINGO模型以及GAIA-1世界模型。

這也意味着,除特斯拉之外,包括Wayve在内的更多玩家,已經初步驗證了端到端自動駕駛的可行性,推翻了依賴代碼不斷改進規則算法,有望打破無窮的長尾場景僵局。

未來通過大量有價值的資料訓練系統,結合可解釋的傳統技術棧或模型,端到端有望提高車端的“智力”水準,使系統駕駛技術達到人類老司機水準,更好地處理複雜的駕駛任務。

目前來看,在自動駕駛或高階智駕領域,端到端的作用已經顯現,并逐漸成為行業共識,具體表現在不少車企、智駕Tier 1們在感覺端、決策端已有技術示範和應用。

01 視窗期來臨,同步拉開智駕差距

本質上,使用者體驗仍然是端到端上車的主驅力,競争焦點主要為兩點:一是解決長尾場景,提升整個系統的安全性;二是實作駕駛風格的拟人化,尤其是動态博弈路/車況下。

比如,随着端到端的加速落地,功能聚焦、擁有更高性能上限、更接近人類駕駛行為的城市NOA,将帶動高階智駕能力迎來新一輪比拼。

對比規則驅動的傳統分子產品方案,決策層泛化能力差,無法應對未曾編碼過的長尾場景,而資料驅動的端到端決策泛化能力強,尤其是對複雜場景的應對能力,有着更高的天花闆。

而上述天花闆,很大程度由算力和資料決定。

這也将驅動新一輪的最佳計算平台方案競争,包括算力、對智駕大模型的支援等,進而支援更大的緩存帶寬、支援端到端的定制化算子等。

比如,地平線早在2016年便率先提出了自動駕駛端到端的演進理念,2022年提出行業領先的自動駕駛感覺端到端算法 Sparse4D;2023年,由地平線學者一作的業界首個公開發表的端到端自動駕駛大模型UniAD,榮獲CVPR 2023最佳論文。

與此同時,地平線積累的基于互動博弈的端到端深度學習算法,大幅提升智駕系統在複雜交通環境中的通行效率和成功率。

面向端到端的量産應用,在硬體技術上,地平線專為大參數Transformer而生的新一代智能計算架構 BPU 納什,能夠以高度的軟硬協同打造業界領先的計算效率,為自動駕駛端到端和互動博弈提供智能計算最優解。

地平線的端到端技術也已投入産品應用,今年4月份,地平線釋出基于征程6P的高階城區SuperDrive方案,可依靠動态、靜态、OCC占用網格三網合一的端到端感覺架構,以及資料驅動的互動式博弈算法,做到在任何道路環境下兼顧場景通過率、通行效率和行為拟人。

基于此架構,SuperDrive的遮擋準召率可提升70%,動态代碼行數降低90%,網絡負載降低50%,能夠支援算法供應商做高效疊代,持續提升使用者體驗,預計2025年實作量産。

地平線認為,通過提供靈活開放的軟硬結合全棧技術,地平線将加速推動全行業實作端到端的大規模量産。

不過,即使有相關計算平台支援,自動駕駛的大模型也将拆解成若幹個層級進化,包括模型化、端到端,最終實作大模型。其中,模型化方面,頭部企業基本完成了感覺模型化,但是規控的模型化還未完全做好。

這也意味着,基于原本積累的感覺算法基礎,規則驅動正在加速轉向資料驅動,未來各Tier 1和車企的智駕能力差距将進一步拉大。

比如,鑒智機器人推出的BEVDet,将純視覺自動駕駛3D感覺做到端到端。相比使用Transformer進行image-to-bev投影,BEVDet擁有更優的泛化性能和更少的資料量需求,可大幅度降低對于資料量的需求。

其自動駕駛端到端的最新研發成果GraphAD,采用圖模型描述交通場景中複雜互動的端到端自動駕駛算法,對駕駛環境中的互動性元素進行顯性模組化,使得模型能夠更直接、快速的捕捉到相關性資訊,顯著提升了學習效率和性能。

目前,該模型已成功以實時運作性能部署到量産車載計算平台上。

此外,今年北京車展上,輕舟智航釋出了基于地平線征程6打造的輕舟乘風MAX智駕方案,采用端到端的技術架構設計,支援雷射雷達接入和輕地圖模式,可勝任處理更加複雜的城市場景,打造極緻全場景NOA體驗。

元戎啟行也對外展示了其即将量産的高階智駕平台DeepRoute IO,以及首款基于DeepRoute IO的解決方案,采用NVIDIA DRIVE Orin系統級晶片,200+TOPS算力,1顆固态雷射雷射雷達,11顆攝像頭,為無高精地圖的端到端方案。

有消息稱,元戎啟行端到端自動駕駛方案已經獲得長城汽車的定點項目,并與英偉達開展合作,預計2025年适配英偉達Thor晶片。近日,元戎還與比亞迪達成合作,負責其POC端對端智能駕駛項目。

02 完全端到端,道阻且長

作為自動駕駛的終局,端到端被寄予厚望,但難以一蹴而就。

在地平線算法平台總架構師穆黎森看來,。

即在比較堅實的工程量産基礎上做系統的快速疊代,一邊提升系統的上限,同時也能夠把握一些基于規則的基礎功能的正确性,保證系統性能的下限。

“”穆黎森表示,這個過程也會驅動針對端到端的計算方案的發展,為端到端提供最優的計算效率。

可見,基于端到端模型提供更拟人且靈活的處理,原有的模型和規則可以保證安全,未來幾年端到端模型和原有模型将在智能駕駛領域相輔相成。

畢竟即使是端到端的标杆特斯拉FSD V12,雖在此前的直播中表現不錯,各種場景處理非常絲滑,但也會犯闖紅燈、撞到馬路牙等低級錯誤。而在上一代方案中,很少出現此類錯誤。

事實上,特斯拉也不敢完全依賴端到端。有特斯拉車主從FSD軟體包中發現,V12僅适用于城市場景,高速場景還是用V11。

這也意味着持續提升端到端方案的下限,使其表現優于原傳統方案,也是一座需要業界征服的裡程碑。

而作為端到端的養料和難點,優質資料的搭建和收集也至關重要。

在自動駕駛領域,訓練模型需要的資料是與實體世界相關的視訊,是以需要模型了解更多實體規則,但也要避免用更多的資料、算力訓練更大的模型,陷入智駕能力不升反降的瓶頸。

即使是已經有數百輛車在路上跑的特斯拉,也坦言如今每10000公裡的行駛資料,隻有1公裡能訓練模型,且每訓練一遍,都需要消耗大量算力。

目前,特斯拉還在開發更強的仿真系統,生成各種資料訓練世界模型,以利用視訊生成和預測技術了解駕駛場景,并從這些場景中學習駕駛行為和政策,以強化端到端。

但依賴世界模型去長尾場景,可信度仍需提高。

例如,Wayve用于解決自動駕駛長尾問題的模型GAIA-1,去年6月推出GAIA-1早期版本後,就有相關研究人員指出,模型生成的視訊中,會有一些元素在後續“突然消失”。

雖然同年10月,Wayve更新了GAIA-1,不僅擴大了參數規模,還增加了訓練時長,模型生成視訊的細節和分辨率都有明顯提升,目前是否完全克服了“元素突然消失”的問題,還有待充分驗證。

可見,距離業界完全實作端到端落地還道阻且長,不僅諸多技術難題待解,還極度燒錢。

但基于端到端的廣闊前景,資本亦展示出了高漲的熱情。去年開始,與端到端相關的智駕Tier1、自動駕駛卡車公司、晶片企業、合成資料商等陸續拿下新一輪融資,亦推高了行業泡沫。

或許在未來的兩三年裡,曆經幾輪去泡沫,待寡頭效應突顯,端到端的格局才更清晰。