天天看點

自動駕駛的ChatGPT時刻來了?

作者:ABRMOOK
自動駕駛的ChatGPT時刻來了?

撰文 / 吳甘沙(馭勢科技聯合創始人、董事長兼CEO)

編輯 / 塗彥平

設計 / 趙昊然

Editor's notes

編者按

6月15日,第十六屆中國汽車藍皮書論壇進行到第二天,在當天下午的智能駕駛專場,馭勢科技聯合創始人、董事長兼CEO吳甘沙帶來《面對或然的大模型ChatGPT時刻,自動駕駛創業公司如何應對》的主題演講。

他提出,“也許大模型是真正的自動駕駛的終局。”馬斯克說特斯拉的12.4版本性能提升5倍到10倍。這是否意味着它在模型的規模上有了一次巨大的提升?數十億到百億參數的多模态模型是否會出現湧現能力?

吳甘沙表示,“如果特斯拉失敗了,就是百億美金的投資之後還是沒有收斂,它的FSD增長曲線到了一定程度開始走平的話,它可能面臨着股市的驚天壓力。但是如果它成功了,也許這個賽道上的大小公司會被甩開。”

他在演講中談到了作為自動駕駛創業公司,馭勢科技的應對政策。

以下是吳甘沙的演講實錄,有删減。

自動駕駛的ChatGPT時刻來了?

非常感謝汽車商業評論的邀請,很高興再次來到藍皮書論壇。各位同行,各位媒體朋友,大家好。因為時間關系,我隻講兩個問題:第一,大家說今天我們面臨着大模型自動駕駛的ChatGPT時刻,它會不會發生;第二,作為自動駕駛的創業性公司,該如何應對。

自動駕駛的ChatGPT時刻來了?

ChatGPT時刻來了?

我們是不是真的面臨這樣的ChatGPT時刻?

自動駕駛的ChatGPT時刻來了?

這是特斯拉車主自發上傳資料的一個統計曲線。這是一個城市FSD的資料,在11.4到12.3之間出現了一個快速提升的現象。當然這個資料随時在變化,但是基本上200多公裡才會有一次“危險接管”。

我們看看國内,國内比較領先的小鵬。何小鵬說得比較實誠,高速上能夠達到1000公裡1次接管,城市裡還不到10公裡1次接管。

大家這麼初看,感覺特斯拉确實是在快速地拉開差距,但是我們再仔細看一下,看它的12.3.6,其實它的一般接管是31公裡1次接管,高速是134公裡1次接管。

一方面我們能夠看到它在快速地提升,但是如果我們區分危險接管和普通接管,會發現它普通接管的資料也不是遙遙領先。更何況,中國的路況要比美國複雜很多。

大家可以看看2015年的資料,每10萬輛車每年導緻多少條人命,中國其實是遠遠超過美國和德國,也就是說中國的交通路況複雜很多。你對比31公裡一次接管和不到10公裡一次接管,也并沒有說特斯拉就是遙遙領先于小鵬。

是以,到目前為止,我們認為可能沒有辦法得出很準确的結論,除非我們今天看到新聞說特斯拉10台FSD的車要在上海跑了,那這樣才能夠避免關公戰秦瓊的這樣一種比較。

那為什麼我們還是要問這個問題,就是它是不是面臨着一個突破的時刻呢?因為我們最近看到馬斯克的一些面向投資人的說法:

第一,在過去這兩年當中他們的算力提升了10倍以上,提升了一個數量級,從前面5760張A100的Dojo,到今年年底可能會增加到8.5萬張的H100。這可是上百億美元的投資。

第二,訓練資料提升了10倍以上。因為Dojo剛剛開始的時候是100萬個10秒的視訊,但是最近一次接受采訪已經達到了幾千萬個視訊。

第三,車端算力差不多提升了5倍,從144TOPS的HW3.0(這個HW3.0隻能夠跑1億上下的參數)到現在720TOPS 的HW4.0,而且針對Transformer做了特殊的優化。

是以,我們不由得猜想它是不是在模型的規模上有了一次巨大的提升?從今天的1億參數到幾十億的參數,它會不會出現湧現能力(舉一反三,觸類旁通等)?這是我們現在特别期待要看到的。

馬斯克在5月份預告了一下,說他們的12.4版本能夠提升5倍到10倍。是以,結合這邊的這些資料,就是訓練算力提升10倍、資料提升10倍,模型提升10倍,性能變成了10倍。是以,這個真正發生是非常有意思的。

而且,我們對比一下大模型的訓練,比如前面是10萬億個token,幾萬張卡訓練100天,做預訓練,再做有專家監督下的精調(Supervised Fine Tuning),最後是人類回報的強化學習(RLHF,Reinforcement Learning from Human Feedback)。

這樣的例子跟我們人學開車特别類似。我們人學開車前面也有一個預訓練的過程,前面18年沒有學開車,隻是學常識,形成了我的世界觀,我的認知模型。這是18年的社會閱曆,就像一個預訓練的過程。然後到了18歲,我就去駕校找了一個教練來教我怎麼開車,這又像專家監督下的Fine Tuning。然後我拿了駕照自己買了車,我從新手上路邊開邊練,磕磕碰碰,熟能生巧,慢慢地就開得越來越好了。這又像不斷回報下一個強化學習的過程。

是以,也許大模型是真正的自動駕駛的終局。我們今天說的那麼多的corner case可能并不是最終靠人力來去窮盡,而是靠這樣的一種方法來去窮盡。

自動駕駛的ChatGPT時刻來了?

2017年我跟旭東(Momenta CEO曹旭東)參加CVPR會議的時候,我們也在談端到端。當時我就有一個想法,大模型就像我們的系統2,針對一些最難、少見交通狀況,需要高算力、高功耗去思考,最後去解決。但是端到端像系統1,它可以類比我們人類駕駛的本能模式。我們今天絕大多數時間開車都是腦子裡想着其他的事,聽着音樂,以一種極低功耗、極低算力的方式開車,這是端到端的模式。不排除這個可能是我們未來自動駕駛實作的終局的一種模式。

當然如果特斯拉失敗了,就是百億美金的投資之後還是沒有收斂,它的FSD增長曲線到了一定程度開始走平的話,它可能面臨着股市的驚天壓力,因為畢竟一年賣個200萬台車可能不值那麼高的估值。但是如果它成功了呢,也許這個賽道上的大小公司會被甩開。這個可能是我們下面要拭目以待的。

自動駕駛的ChatGPT時刻來了?

差異化競争

我們是以L4商用車為主的一家公司,但是從2016年成立以來,我們一直有一支團隊在做乘用車。當然這個團隊的規模很小,剛才旭東說1300個人,我們不到十分之一。這麼小的團隊,我們該怎麼做乘用車,今天也跟大家做一個分享。

像FSD這樣的投資烈度毫無疑問我們沒有辦法去做,是以我們做差異化競争,去對标EAP,做出來極緻的智價比。比如我們在10萬元的車上面能不能做到EAP。

自動駕駛的ChatGPT時刻來了?

什麼是EAP?大家可以看到特斯拉的智駕就是三個級别,最上面的就是基礎版AP,中間那個是EAP,下面是FSD。這個EAP就是我們經常說的高速NOA,行泊一體,它的報價要到32000元,而FSD是64000元。

今天的FSD或者城市NOA是在從90分到99分的過程當中,這裡面需要巨大的投資。但是另一方面,EAP這32000元錢的東西,高速的NOA、行泊一體再加上通勤記憶行車,可能在99分到99.99分的過程當中。那麼能不能把這套系統做到3000元錢而不是32000元錢?這可能又是一個值得去探索的地方。

就是一方面把體驗從99分做到99.99分,另一方面要把成本極大地降低。我們在這裡面也有一定的探索。

自動駕駛的ChatGPT時刻來了?

這是我們乘用車的一條産品線,最底端就是一體機。一體機這條産品線基本上都是基于地平線的,底端就是J2的,200萬像素、800萬像素。我剛才說的就是中間的産品,行泊一體。上面其實是L4跟城市NOA一起想要去構想的預控制器的形态。

中間有一個産品,成本是極低極低的,它是J2再加上E3,能夠實作高速的NOA再加上基于超音波雷達的APA,就是一個基本的行泊一體,它是極緻的成本。

再往上這是J3再加上E3,我們把它叫做“極緻的智價比”,它在這個基礎上加上一個融合的APA,另外再加上一個記憶行車。然後在這個基礎上又有一個變種,中間再加上TDA4,這裡面就是高速領航加上記憶行車之外,再加上記憶泊車。然後再到上面,就再加上城市NOA。這是這麼一個産品線。

但是我們采用極高子產品複用的設計方法,這樣使得我們跟主機廠和Tier1合作的時候可以有非常靈活的身段。可以提供算法或者軟體子產品,可以提供整體的軟體包和服務,也可以把硬體的參考設計給我們的合作夥伴,或者提供軟硬體一體的方案,是以,它可以非常靈活。我們基礎版的行泊一體和極緻智價比的行泊一體,這兩個産品都是在小幾千塊錢,但是能夠提供對标EAP的一種體驗。

在這個過程中我也介紹一下我們的方法論。其實我們最早對這個團隊的要求就是子產品化,軟體高度子產品化可複用,硬體可以支援各類的計算平台,從J3到TDA到恩智浦到英飛淩,包括我們國産的芯馳等等。總結一下,就是硬體能夠适配各類的品牌,軟體高度子產品化。

但是我們前七年基本上是兩條路線,就是行車和泊車都是分開去做的。然後就做了這麼一個行泊一體的軟體架構,這是整個重新開始架構的産品。這個産品我們也是基于SOA,進一步提升開發效率和功能的可擴充性。

同時,我們還做了很多的工作。這裡我介紹一點。

因為像這樣極緻智價比的平台,一個J3再加上一個E3,它除了感覺能夠用神經網絡,其他的很難用資料驅動的方法,很難用神經網絡。但是如果今天基于人的規則的這種方法,其實有很多資料沒什麼用,因為人來不及處理,是以就會利用效率低。但是如果你運用資料驅動的方法,用神經網絡,它的安全等級又比較低,它隻能達到QM,沒有辦法達到更高的安全等級。

Joseph Sifakis這位老兄也是圖靈獎獲得者,他其實問了一個問題,為什麼自動駕駛的車那麼難?讨論讨論着最終還是走向一個方向,就是基于模型、基于規則,再加上資料驅動神經網絡的方法進行糅合,這樣的方法能不能在極其低端的晶片上跑起來。

自動駕駛的ChatGPT時刻來了?

我們拿目标選擇作為一個案例,大家可以看到我們在一個MCU上面能夠跑出來這麼一套系統,一方面它是一個基于資料驅動的LSTM(Long Short Term Memory,長短期記憶)的網絡,另一方面是基于規則,再加上一個synthersizer,這麼一套系統。神經網絡能跑在一個MCU的core上面,然後規則和synthesizer跑在另外一個core上面。當然神經網絡的是QM,另外一個是rule-based,是ASIL D。

這些融合起來我們能夠綜合達到ASIL D功能安全等級。同時,它對代碼空間、資料空間的占用,其實是在幾百kb的級别,能夠達到26262的認證。

我們能不能通過一套融合的系統,一方面滿足資料驅動,滿足更高的性能,另外一方面又是極緻的成本,并滿足SOD的要求。

另外的案例,我們通過生成性對抗網絡,比如在資料選擇、在規控這些今天我們的資料不是特别多的情況下,能夠不斷地通過生成性的對抗網絡來生成更高品質的資料。

這裡舉一個案例,就是很小的神經網絡的算法和基于規則的方式進行融合,那它要去處理的就是一輛車,它在cut-in。大家可以看到基于小神經網絡的能夠比基于規則提前2秒多就能發現cut-in的意圖。總的來說能夠大幅減少假陰性,另外把recall可以提升50%。

這套系統我們也用在了很多其他的功能上,比如,這是一個純視覺的AEB,我們也是拿到了五星+的标準,能夠實作85公裡時速的一個刹停。

自動駕駛的ChatGPT時刻來了?

跟随第一梯隊

我們還是要緊跟第一梯隊,在算法上緊跟前沿,并且還是能夠保證可子產品化傳遞。

過去這幾年,特斯拉在BEV Transformer,包括像這種無圖的Lanes Network,包括從單幀到一個視訊流,包括到Occupancy Network(占用網絡)等等方面有了很多創新,下一步做各個不同子產品的神經網絡化,最後實作整體的端到端大一統的網絡。

在這些算法方面我們也一直在跟随,像BEV+Transformer+ Occupancy Network這樣的網絡,我們做的一套系統,最近在一個國際會議Robo Drive Challenge上面拿到了第一名。我們有很多這樣的算法,它從這個性能上面看還是非常不錯的,這些算法我們都可以把它們作為子產品來進行傳遞。

自動駕駛的ChatGPT時刻來了?

為大客戶服務

創業公司沒有辦法投入那麼多的GPU,也沒有那麼多的資料,但是誰有?我們的大客戶可能有,尤其是一些大的OEM,有資料,也有算力。我們也可以為他們提供像資料閉環、運維平台、大算力訓練平台的軟體服務。

因為我們做L4,大家知道L4其實需要特别好的閉環,因為它需要快速地疊代。是以,我們在車端有一套黑匣子的資料儲存系統(DSSAD),在雲端也有一套不錯的自動駕駛的訓練平台。

特别是從去年開始,我們也在把一些大模型的技術應用進去,場景了解、預标注、資料挖掘等大模型。這是一個典型的做智駕公司或者是OEM該有的平台。那麼我們可以做這種雲端的container的傳遞,也可以做實際的一體機的傳遞。因為可能有些公司并不希望用雲,而且它的資料量可能像這麼一個24-192卡的一體機,就夠用了,那麼我們也可以傳遞這樣的一體機,確定快速地部署,落地即用。這是第一點。

第二是我們的運維平台。運維平台我覺得比較有特色。為什麼?L4的系統我們是比較早去嘗試訂閱服務的模式的。就是我賣了這麼一個系統以後,因為這個系統裡面加了一個AI司機,我每年針對AI司機能夠收一點工資,這就是一個訂閱服務。

但是這個訂閱服務如果你做得不好,其實一方面你沒有辦法保障客戶的滿意度。假設說一輛車一天工作20個小時,24小時當中隻有4個小時在檢修,20個小時99.99%的可用率,也就是一年隻有差不多一個小時是沒有在工作狀态,這個要求非常高。

另一方面,像L4的系統,比如一個雷射雷達可能就幾萬塊錢,一個域控又幾萬塊錢,那一年的訂閱費可能也就是幾萬塊錢。如果說你不能有很好的一種運維平台,那你訂閱服務的這種模式最終是會虧錢的。是以,我們做了一個很好的雲服務平台,這樣的運維的能力也是可以輸出的。

自動駕駛的ChatGPT時刻來了?

最終做一個總結,我們這麼一個小團隊應該怎麼去做乘用車的智駕。

第一,我們身段非常靈活,可以提供硬體參考設計、整體軟體包,或者是單個子產品的算法或者軟體,或者,我們沒有資料和沒有算力,我們可以為有資料和算力的客戶提供資料/雲端服務。

第二,我們也有非常好的算法,一直在緊跟特斯拉的SOTA算法。我們可以子產品化傳遞我們的算法子產品,也可以傳遞整體的軟硬體一體的産品,或者是軟體包再加上硬體的參考設計。

這個産品我們就聚焦在EAP這種高速NOA再加上行泊一體,再加上記憶行車的這樣一種形态上。這樣的形态我們希望做到極緻的智價比,能夠下沉到10萬塊錢的平台,我們可以支援Tier1或者OEM把這樣的産品打造出來。

這就是我分享的内容,謝謝大家!

繼續閱讀