自動駕駛的ChatGPT時刻來了？

撰文 / 吳甘沙（馭勢科技聯合創始人、董事長兼CEO）

編輯 / 塗彥平

設計 / 趙昊然

Editor's notes

編者按

6月15日，第十六屆中國汽車藍皮書論壇進行到第二天，在當天下午的智能駕駛專場，馭勢科技聯合創始人、董事長兼CEO吳甘沙帶來《面對或然的大模型ChatGPT時刻，自動駕駛創業公司如何應對》的主題演講。

他提出，“也許大模型是真正的自動駕駛的終局。”馬斯克說特斯拉的12.4版本性能提升5倍到10倍。這是否意味着它在模型的規模上有了一次巨大的提升？數十億到百億參數的多模态模型是否會出現湧現能力？

吳甘沙表示，“如果特斯拉失敗了，就是百億美金的投資之後還是沒有收斂，它的FSD增長曲線到了一定程度開始走平的話，它可能面臨着股市的驚天壓力。但是如果它成功了，也許這個賽道上的大小公司會被甩開。”

他在演講中談到了作為自動駕駛創業公司，馭勢科技的應對政策。

以下是吳甘沙的演講實錄，有删減。

非常感謝汽車商業評論的邀請，很高興再次來到藍皮書論壇。各位同行，各位媒體朋友，大家好。因為時間關系，我隻講兩個問題：第一，大家說今天我們面臨着大模型自動駕駛的ChatGPT時刻，它會不會發生；第二，作為自動駕駛的創業性公司，該如何應對。

ChatGPT時刻來了？

我們是不是真的面臨這樣的ChatGPT時刻？

這是特斯拉車主自發上傳資料的一個統計曲線。這是一個城市FSD的資料，在11.4到12.3之間出現了一個快速提升的現象。當然這個資料随時在變化，但是基本上200多公裡才會有一次“危險接管”。

我們看看國内，國内比較領先的小鵬。何小鵬說得比較實誠，高速上能夠達到1000公裡1次接管，城市裡還不到10公裡1次接管。

大家這麼初看，感覺特斯拉确實是在快速地拉開差距，但是我們再仔細看一下，看它的12.3.6，其實它的一般接管是31公裡1次接管，高速是134公裡1次接管。

一方面我們能夠看到它在快速地提升，但是如果我們區分危險接管和普通接管，會發現它普通接管的資料也不是遙遙領先。更何況，中國的路況要比美國複雜很多。

大家可以看看2015年的資料，每10萬輛車每年導緻多少條人命，中國其實是遠遠超過美國和德國，也就是說中國的交通路況複雜很多。你對比31公裡一次接管和不到10公裡一次接管，也并沒有說特斯拉就是遙遙領先于小鵬。

是以，到目前為止，我們認為可能沒有辦法得出很準确的結論，除非我們今天看到新聞說特斯拉10台FSD的車要在上海跑了，那這樣才能夠避免關公戰秦瓊的這樣一種比較。

那為什麼我們還是要問這個問題，就是它是不是面臨着一個突破的時刻呢？因為我們最近看到馬斯克的一些面向投資人的說法：

第一，在過去這兩年當中他們的算力提升了10倍以上，提升了一個數量級，從前面5760張A100的Dojo，到今年年底可能會增加到8.5萬張的H100。這可是上百億美元的投資。

第二，訓練資料提升了10倍以上。因為Dojo剛剛開始的時候是100萬個10秒的視訊，但是最近一次接受采訪已經達到了幾千萬個視訊。

第三，車端算力差不多提升了5倍，從144TOPS的HW3.0（這個HW3.0隻能夠跑1億上下的參數）到現在720TOPS 的HW4.0，而且針對Transformer做了特殊的優化。

是以，我們不由得猜想它是不是在模型的規模上有了一次巨大的提升？從今天的1億參數到幾十億的參數，它會不會出現湧現能力（舉一反三，觸類旁通等）？這是我們現在特别期待要看到的。

馬斯克在5月份預告了一下，說他們的12.4版本能夠提升5倍到10倍。是以，結合這邊的這些資料，就是訓練算力提升10倍、資料提升10倍，模型提升10倍，性能變成了10倍。是以，這個真正發生是非常有意思的。

而且，我們對比一下大模型的訓練，比如前面是10萬億個token，幾萬張卡訓練100天，做預訓練，再做有專家監督下的精調（Supervised Fine Tuning），最後是人類回報的強化學習（RLHF，Reinforcement Learning from Human Feedback)。

這樣的例子跟我們人學開車特别類似。我們人學開車前面也有一個預訓練的過程，前面18年沒有學開車，隻是學常識，形成了我的世界觀，我的認知模型。這是18年的社會閱曆，就像一個預訓練的過程。然後到了18歲，我就去駕校找了一個教練來教我怎麼開車，這又像專家監督下的Fine Tuning。然後我拿了駕照自己買了車，我從新手上路邊開邊練，磕磕碰碰，熟能生巧，慢慢地就開得越來越好了。這又像不斷回報下一個強化學習的過程。

是以，也許大模型是真正的自動駕駛的終局。我們今天說的那麼多的corner case可能并不是最終靠人力來去窮盡，而是靠這樣的一種方法來去窮盡。

2017年我跟旭東（Momenta CEO曹旭東）參加CVPR會議的時候，我們也在談端到端。當時我就有一個想法，大模型就像我們的系統2，針對一些最難、少見交通狀況，需要高算力、高功耗去思考，最後去解決。但是端到端像系統1，它可以類比我們人類駕駛的本能模式。我們今天絕大多數時間開車都是腦子裡想着其他的事，聽着音樂，以一種極低功耗、極低算力的方式開車，這是端到端的模式。不排除這個可能是我們未來自動駕駛實作的終局的一種模式。

當然如果特斯拉失敗了，就是百億美金的投資之後還是沒有收斂，它的FSD增長曲線到了一定程度開始走平的話，它可能面臨着股市的驚天壓力，因為畢竟一年賣個200萬台車可能不值那麼高的估值。但是如果它成功了呢，也許這個賽道上的大小公司會被甩開。這個可能是我們下面要拭目以待的。

差異化競争

我們是以L4商用車為主的一家公司，但是從2016年成立以來，我們一直有一支團隊在做乘用車。當然這個團隊的規模很小，剛才旭東說1300個人，我們不到十分之一。這麼小的團隊，我們該怎麼做乘用車，今天也跟大家做一個分享。

像FSD這樣的投資烈度毫無疑問我們沒有辦法去做，是以我們做差異化競争，去對标EAP，做出來極緻的智價比。比如我們在10萬元的車上面能不能做到EAP。

什麼是EAP？大家可以看到特斯拉的智駕就是三個級别，最上面的就是基礎版AP，中間那個是EAP，下面是FSD。這個EAP就是我們經常說的高速NOA，行泊一體，它的報價要到32000元，而FSD是64000元。

今天的FSD或者城市NOA是在從90分到99分的過程當中，這裡面需要巨大的投資。但是另一方面，EAP這32000元錢的東西，高速的NOA、行泊一體再加上通勤記憶行車，可能在99分到99.99分的過程當中。那麼能不能把這套系統做到3000元錢而不是32000元錢？這可能又是一個值得去探索的地方。

就是一方面把體驗從99分做到99.99分，另一方面要把成本極大地降低。我們在這裡面也有一定的探索。

這是我們乘用車的一條産品線，最底端就是一體機。一體機這條産品線基本上都是基于地平線的，底端就是J2的，200萬像素、800萬像素。我剛才說的就是中間的産品，行泊一體。上面其實是L4跟城市NOA一起想要去構想的預控制器的形态。

中間有一個産品，成本是極低極低的，它是J2再加上E3，能夠實作高速的NOA再加上基于超音波雷達的APA，就是一個基本的行泊一體，它是極緻的成本。

再往上這是J3再加上E3，我們把它叫做“極緻的智價比”，它在這個基礎上加上一個融合的APA，另外再加上一個記憶行車。然後在這個基礎上又有一個變種，中間再加上TDA4，這裡面就是高速領航加上記憶行車之外，再加上記憶泊車。然後再到上面，就再加上城市NOA。這是這麼一個産品線。

但是我們采用極高子產品複用的設計方法，這樣使得我們跟主機廠和Tier1合作的時候可以有非常靈活的身段。可以提供算法或者軟體子產品，可以提供整體的軟體包和服務，也可以把硬體的參考設計給我們的合作夥伴，或者提供軟硬體一體的方案，是以，它可以非常靈活。我們基礎版的行泊一體和極緻智價比的行泊一體，這兩個産品都是在小幾千塊錢，但是能夠提供對标EAP的一種體驗。

在這個過程中我也介紹一下我們的方法論。其實我們最早對這個團隊的要求就是子產品化，軟體高度子產品化可複用，硬體可以支援各類的計算平台，從J3到TDA到恩智浦到英飛淩，包括我們國産的芯馳等等。總結一下，就是硬體能夠适配各類的品牌，軟體高度子產品化。

但是我們前七年基本上是兩條路線，就是行車和泊車都是分開去做的。然後就做了這麼一個行泊一體的軟體架構，這是整個重新開始架構的産品。這個産品我們也是基于SOA，進一步提升開發效率和功能的可擴充性。

同時，我們還做了很多的工作。這裡我介紹一點。

因為像這樣極緻智價比的平台，一個J3再加上一個E3，它除了感覺能夠用神經網絡，其他的很難用資料驅動的方法，很難用神經網絡。但是如果今天基于人的規則的這種方法，其實有很多資料沒什麼用，因為人來不及處理，是以就會利用效率低。但是如果你運用資料驅動的方法，用神經網絡，它的安全等級又比較低，它隻能達到QM，沒有辦法達到更高的安全等級。

Joseph Sifakis這位老兄也是圖靈獎獲得者，他其實問了一個問題，為什麼自動駕駛的車那麼難？讨論讨論着最終還是走向一個方向，就是基于模型、基于規則，再加上資料驅動神經網絡的方法進行糅合,這樣的方法能不能在極其低端的晶片上跑起來。

我們拿目标選擇作為一個案例，大家可以看到我們在一個MCU上面能夠跑出來這麼一套系統，一方面它是一個基于資料驅動的LSTM（Long Short Term Memory,長短期記憶）的網絡，另一方面是基于規則，再加上一個synthersizer，這麼一套系統。神經網絡能跑在一個MCU的core上面，然後規則和synthesizer跑在另外一個core上面。當然神經網絡的是QM，另外一個是rule-based，是ASIL D。

這些融合起來我們能夠綜合達到ASIL D功能安全等級。同時，它對代碼空間、資料空間的占用，其實是在幾百kb的級别，能夠達到26262的認證。

我們能不能通過一套融合的系統，一方面滿足資料驅動，滿足更高的性能，另外一方面又是極緻的成本，并滿足SOD的要求。

另外的案例，我們通過生成性對抗網絡，比如在資料選擇、在規控這些今天我們的資料不是特别多的情況下，能夠不斷地通過生成性的對抗網絡來生成更高品質的資料。

這裡舉一個案例，就是很小的神經網絡的算法和基于規則的方式進行融合，那它要去處理的就是一輛車，它在cut-in。大家可以看到基于小神經網絡的能夠比基于規則提前2秒多就能發現cut-in的意圖。總的來說能夠大幅減少假陰性，另外把recall可以提升50%。

這套系統我們也用在了很多其他的功能上，比如，這是一個純視覺的AEB，我們也是拿到了五星+的标準，能夠實作85公裡時速的一個刹停。

跟随第一梯隊

我們還是要緊跟第一梯隊，在算法上緊跟前沿，并且還是能夠保證可子產品化傳遞。

過去這幾年，特斯拉在BEV Transformer，包括像這種無圖的Lanes Network，包括從單幀到一個視訊流，包括到Occupancy Network(占用網絡)等等方面有了很多創新，下一步做各個不同子產品的神經網絡化，最後實作整體的端到端大一統的網絡。

在這些算法方面我們也一直在跟随，像BEV+Transformer+ Occupancy Network這樣的網絡，我們做的一套系統，最近在一個國際會議Robo Drive Challenge上面拿到了第一名。我們有很多這樣的算法，它從這個性能上面看還是非常不錯的，這些算法我們都可以把它們作為子產品來進行傳遞。

為大客戶服務

創業公司沒有辦法投入那麼多的GPU，也沒有那麼多的資料，但是誰有？我們的大客戶可能有，尤其是一些大的OEM，有資料，也有算力。我們也可以為他們提供像資料閉環、運維平台、大算力訓練平台的軟體服務。

因為我們做L4，大家知道L4其實需要特别好的閉環，因為它需要快速地疊代。是以，我們在車端有一套黑匣子的資料儲存系統（DSSAD），在雲端也有一套不錯的自動駕駛的訓練平台。

特别是從去年開始，我們也在把一些大模型的技術應用進去，場景了解、預标注、資料挖掘等大模型。這是一個典型的做智駕公司或者是OEM該有的平台。那麼我們可以做這種雲端的container的傳遞，也可以做實際的一體機的傳遞。因為可能有些公司并不希望用雲，而且它的資料量可能像這麼一個24-192卡的一體機，就夠用了，那麼我們也可以傳遞這樣的一體機，確定快速地部署，落地即用。這是第一點。

第二是我們的運維平台。運維平台我覺得比較有特色。為什麼？L4的系統我們是比較早去嘗試訂閱服務的模式的。就是我賣了這麼一個系統以後，因為這個系統裡面加了一個AI司機，我每年針對AI司機能夠收一點工資，這就是一個訂閱服務。

但是這個訂閱服務如果你做得不好，其實一方面你沒有辦法保障客戶的滿意度。假設說一輛車一天工作20個小時，24小時當中隻有4個小時在檢修，20個小時99.99%的可用率，也就是一年隻有差不多一個小時是沒有在工作狀态，這個要求非常高。

另一方面，像L4的系統，比如一個雷射雷達可能就幾萬塊錢，一個域控又幾萬塊錢，那一年的訂閱費可能也就是幾萬塊錢。如果說你不能有很好的一種運維平台，那你訂閱服務的這種模式最終是會虧錢的。是以，我們做了一個很好的雲服務平台，這樣的運維的能力也是可以輸出的。

最終做一個總結，我們這麼一個小團隊應該怎麼去做乘用車的智駕。

第一，我們身段非常靈活，可以提供硬體參考設計、整體軟體包，或者是單個子產品的算法或者軟體，或者，我們沒有資料和沒有算力，我們可以為有資料和算力的客戶提供資料/雲端服務。

第二，我們也有非常好的算法，一直在緊跟特斯拉的SOTA算法。我們可以子產品化傳遞我們的算法子產品，也可以傳遞整體的軟硬體一體的産品，或者是軟體包再加上硬體的參考設計。

這個産品我們就聚焦在EAP這種高速NOA再加上行泊一體，再加上記憶行車的這樣一種形态上。這樣的形态我們希望做到極緻的智價比，能夠下沉到10萬塊錢的平台，我們可以支援Tier1或者OEM把這樣的産品打造出來。

這就是我分享的内容，謝謝大家！

自動駕駛的ChatGPT時刻來了？

繼續閱讀

馬斯克承認特斯拉FSD功能開發存在“跷跷闆問題”！目前最大的限制是測試AI模型效率【附自動駕駛行業前景】

英恒科技自動駕駛雷達融合算法方案入榜nuScenes全球資料

先行者再破局，極狐汽車L3首批入選首批L3自動駕駛試點！

端到端将開啟自動駕駛新一輪革命？

拆解了30條萬贊的抖音同城探店短視訊後，我用ChatGPT做了一個同城探店短視訊文案助手

連續當機！多國使用者受波及！ChatGPT崩了？

華為重塑自動駕駛，純血鴻蒙程式設計語言亮相，開發者大會殺瘋了

ChatGPT有多瘋狂？僅僅訓練一次，就相當于1.2萬個人的一年時間

百度搜尋的廣告确實多，這一點釘釘總裁葉軍還真沒說錯，你在百度裡搜尋東西，頭部三條廣告，中間内容頁還有一條廣告，尾部還有好

#鉑智4X全系标配高階智駕#鉑智4X全系标配了準L3級自動駕駛的Toyota-Pilot高階智駕，Toyota-Pilo

CVPR自動駕駛最in挑戰賽賽道，全球冠軍被算力選手奪走了

ChatGPT App 登陸 Mac 平台全面開放給所有使用者

廣汽豐田鉑智4X的外觀稱得上犀利，車頭能看到明顯的層次劃分，并将大部分區域進行了封閉處理，有濃郁的新能源車風格。側面采用

OpenAI推遲ChatGPT的新進階語音模式

國産旗艦級轎車，車長5160mm，比邁巴赫S級更舒适，還有自動駕駛

今日起，Mac版ChatGPT應用人人可下！GPT-4o語音功能卻再鴿一個月