天天看點

清程極智 CEO 湯雄超:訓推一體機并非 AI Infra 的未來

清程極智 CEO 湯雄超:訓推一體機并非 AI Infra 的未來

較小的一體機難承載巨大的訓練業務,訓推「對症下藥」才有機會。

作者|朱可軒

編輯|陳彩娴

早在超算時代,清華大學高性能計算研究中心便一直是解決算力需求相關軟體問題的行家。

“目前 AI Infra 賽道幾家國内廠商中,隻有我們有過十萬台伺服器的超大規模國産算力叢集的使用和調優經驗。”湯雄超向 AI 科技評論介紹道。

而“大規模”會是算力發展最難解的“題”——

從湯雄超觀察來看,目前業内多有提及的不同品牌 GPU 異構混訓,是晶片産能不足現狀下的一種妥協,未來智算中心可能會回歸同一型号 GPU 的架構以獲得更高的效率,AI 大模型訓練核心歸根到底還是落點在大規模算力系統本身。

基于前述思考,去年年底,這支來自清華大學計算機系的團隊創辦了清程極智,湯雄超博士擔任公司 CEO,翟季冬教授為公司首席科學家。

除了 AI 訓練面臨的挑戰,成立之初,清程極智也看到了推理側的機會。

在一段時期内,訓推一體機是業内較為流行的産品形态。但在湯雄超的觀點中,訓推一體機是很難滿足未來的 AI 業務全部需求的。

論及其中原因,他認為,“訓練和推理兩種業務對算力系統的需求差別較大,很難想象出有一個比較小的一體機能夠承載訓練的業務,現在大模型的預訓練可能都是萬卡以上的規模。”是以,清程極智選擇為推理業務量身定制相應的軟硬一體化算力系統。

同時,通過雲端算力提供 MaaS 大模型推理服務也是清程極智選擇的路徑之一。

至于這條路會否和通用大模型公司産生競争,湯雄超認為,大模型應用一定會起量,一個足夠大的市場可以容下好幾家同一細分領域裡的廠商。

他還告訴 AI 科技評論,公司成立這半年多來,在商業化方面,清程極智已經陸續和多家晶片廠商、算力中心、AI 應用開發商以及基礎模型預訓練廠商達成了商業合作。

值得一提的是,雲廠商也是清程極智的合作對象之一。在湯雄超看來,雲廠商過去解決的問題跟現在要解決的問題并不完全相同,甚至是相對的兩個方向——

雲廠商過往聚焦于資源池化和共享,而現階段要解決的問題主要是分布式的資源合并,這方面的經驗市場上還較為稀缺,而這恰好是清程極智團隊的強項所在。

這段時日,湯雄超對國内晶片廠商的差異化也深有體會,他認為,從過往智能手機和新能源汽車兩個行業的發展規律來看,之後國産晶片市場會有一定程度的收斂,但不會完全集中到一家,并且國産晶片的成本效益超越海外産品也隻是時間問題。

以下是 AI 科技評論與湯雄超的訪談實錄,作者進行了不改原意的編輯整理:

1

壁壘在超大規模叢集調優

AI 科技評論:你們為什麼會想要在去年年底瞄準 AI Infra 這個賽道去創業呢?有什麼契機嗎?

湯雄超:去年底出來做 AI Infra 創業是因為我們認為這個領域和時機比較好。

主要契機要從我們團隊背景說起,目前我們團隊 40 多人中 80% 都是研發,核心的技術負責人幾乎都來自清華計算機系。清華大學高性能計算研究中心一直以來是做超算的,主要解決算力需求大的問題,之前主要服務于天氣預報、氣候模拟、石油勘探等。

随着人工智能的發展,我們發現 AI 相關問題也逐漸需要超大計算量解決,剛好我們做超算的經驗都可以用來解決 AI 算力系統的問題,再加上我們非常看好 AI,長期來看,我們相信 AI 會給社會帶來較大影響。是以從商業的角度上來說,我們做的事情還算比較有想象空間,這也很契合我們的技術背景。

另外,也剛好趕上美國對中國的晶片制裁,從社會價值的角度上來講,我們作為清華人去做面向國産算力系統的事情也非常有意義。

總得來說,我們當時選擇這個賽道創業,是非常堅定看好市場機會的,并非拿着錘子找釘子。基本邏輯在于,AI 對算力的需求越來越大是共識,國内的智能算力從英偉達轉向國産基本上也是确定的,而在這樣一個一邊增長一邊轉換的過程中,顯然我們需要在國産算力生态上做很多事情,這也會帶來許多商業上的機會。

清程極智 CEO 湯雄超:訓推一體機并非 AI Infra 的未來

湯雄超在清程極智辦公室 受訪者供圖

AI 科技評論:國内目前有好幾家廠商在布局 AI Infra 這條賽道,你們的壁壘展現在哪方面?

湯雄超:這個賽道上有很多友商,對我們而言并非負面因素。首先,市場大到足夠容下很多家廠商,其次,既然有這麼多人入局,也說明大家對這個領域的認可。

我們其中一個顯著的技術壁壘在于超大規模叢集的調優能力,現實中,這可能直接意味着算力中心是否用得起來,本身我們團隊在大規模叢集上面做過很多事情,是以我們和其他家的差異性優勢,最核心的還是在于這一點,這件事是非常難做的。

據我所知,目前國内 AI Infra 賽道的廠商中,除了我們,沒有團隊有過十萬台伺服器的超大規模國産算力叢集的使用和調優經驗,哪怕是萬卡、十萬卡這樣的超大規模訓練,現在能做的團隊都不多,是以這是我們非常重要的技術優勢。實際上,除了各家都在做的推理優化之外,我們是可以做訓練的,而且是超大規模的訓練。

AI 科技評論:清程目前主要和哪些廠商有合作呢?

湯雄超:我們公司聚焦在 AI Infra,就是算力的基礎軟體系統,大家一般會把 Infra 比喻成一座橋梁,一端是硬體,另外一端是上層應用,我們做的就是把這兩端連接配接起來,讓大模型更好地運作在晶片上。

我們的客戶也就主要來自于這兩端,一方面是算力側,包括晶片廠商以及算力中心的建設方和營運方。整體上來說,國産算力系統的軟體生态和國外成熟的系統相比,還是有一定的差距的,我們做的就是幫晶片廠商補齊短闆,真正發揮硬體的性能。

算力中心也是類似的情況,現在大模型所需要的算力規模很大,真正地把萬卡甚至十萬卡規模的叢集用起來并不簡單,我們幫算力中心把超大規模的叢集給利用起來,從商業角度上來說,能夠提升算力中心的市場競争力,從社會角度來講,相當于提升算力資産的整體使用率,減少資産閑置現象。

對于 AI 應用側,我們提供的價值整體上來說就是大家比較熟悉的提速降本。目前我們用大模型回答問題或者畫圖,耗時還比較長,這給 AI 應用落地帶來較大障礙。我們通過高性能的大模型推理引擎,在同樣的硬體平台上把模型運作得更快,在一些情況下響應速度可能會有近百倍的提升。這樣可以把模型運作時間縮短,一方面,使用者體驗可以改善,另外一方面,時間縮短了,AI 應用消耗的算力也會變少,算力成本随之降低。

另外,我們也有做基座大模型預訓練的客戶群體,模型預訓練本身算力消耗大、周期長,通常訓練一個大模型需要幾個月時間和幾千萬的預算。我們能把訓練的性能提升百分之幾十,進而降低百萬或千萬的算力開銷。一方面,大模型訓練周期縮短後,模型疊代速度會變得更快。另一方面,按一般原本算力費用千萬級來說,節省 50% 的算力成本會是非常大的一個數字。

整體來看,現在我們的客戶主要是晶片廠商、算力中心、上層做 AI 應用的公司以及做模型預訓練的廠商。

AI 科技評論:和雲廠會有合作或者競争嗎?

湯雄超:我們跟雲廠相比是有自身優勢的。在一些比較傳統的文本類的大模型的預訓練上,我們也和國内的雲廠商有合作。

他們也有自己的團隊,找我們合作本質上還是因為雲廠過去要解決的問題跟現在要解決問題并不相同。之前他們也維護大規模的叢集,但更多的是從資源池化和共享的角度去做的,就相當于把一塊 GPU 卡切成很多份,同時服務很多請求和使用者。

現在反過來我們要做的是合并的事情,就是讓 1 萬塊或者 10 萬塊 GPU 共同為一個使用者服務,去解決同一個問題。這部分經驗即使在大廠内也是相當稀缺的,因為國内本來做大叢集并行計算的人一直都比較少,再疊加上國産晶片問題,相關的儲備就更稀缺了。

AI 科技評論:你們目前的融資情況如何了?

湯雄超:今年初我們完成了第一輪融資,預計年内會再完成新一輪。

2

圍繞推理引擎的核心布局

AI 科技評論:模型推理目前也是清程的一個重點,你們的 MaaS 平台具體有什麼樣的布局?

湯雄超:我們 MaaS 平台首期推出的是文本對話,這方面除了像一般的 MaaS 平台推出的 10B 以内的模型之外,我們也提供了免費試用的 72B 的國産中文大模型,可以把它運作在國産算力平台上,成本控制到較低的水準,比用英偉達算力便宜很多,是以我們現在可以提供免費試用。

近期也上線了一個文生圖的功能,完全相容了國際上流行的 ComfyUI 界面,适合設計師這樣的專業群體。

後續可能還會再加入其他的大模型服務能力,因為有很多模型的推理工作被廣泛需要,AI 應用的市場發展很快,多模态需求也在變多,後續會上架視訊生成等服務。

清程極智 CEO 湯雄超:訓推一體機并非 AI Infra 的未來

清程極智 MaaS 平台AI 科技評論:您會覺得這種 MaaS 平台賣大模型 API 的方式,實際上是在和通用大模型公司競争嗎?

湯雄超:我覺得現在整個大模型行業内很難說做的業務是完全區分開的,有競争是正常的,并且行業裡玩家足夠多,說明大家都覺得這樣的事情值得做,也證明這個賽道的重要性是得到玩家以及背後投資人認可的。

另外,我個人堅信大模型應用一定會起量,在一個足夠大的市場裡面,其實在同一個細分市場裡面可以容得下好幾家廠商。對我們來說, MaaS 平台可以讓更多有需求的人使用到清程的推理加速能力。

并且,我們并不是要在 MaaS 模式上去擊敗通用大模型巨頭公司,清程的能力也不僅局限在 MaaS 平台上,我們的産品傳遞形式也是很多樣的,也包括一體機、推理引擎軟體以及其他一些解決方案的傳遞。

AI 科技評論:您說的一體機是指訓推一體機嗎?

湯雄超:我們做的不是訓練推理一體機。推理一體機我們是有做的,但訓練的話,本質上看,它的算力需求不适合這種産品形态。

在我看來,訓練和推理兩種業務間的差別較大,很難想象出有一個比較小的一體機能夠承載大的訓練業務,現在大模型的預訓練可能都是萬卡以上的規模,目前隻能在大規模的智算叢集上完成。

我們做的是推理一體機,就是客戶有需求,我們可以去幫他們選配一些高成本效益的硬體,因為我們和很多國産晶片有合作,有時候比客戶更清楚他們不同的大模型推理需求比較适合哪一款晶片的,我們也發現有不少客戶在算力使用上不合理,比如,有的客戶買了 A100,優勢卻發揮不出來,因為 A100 其實更适合拿來做訓練,而不是推理。

AI 科技評論:你們 MaaS 平台上能選擇英偉達和國産兩種卡加速 Qwen2-72B-Instruct 的推理,主要是哪些卡?

湯雄超:英偉達我們是比較正常的推理卡,國産卡用的也是和英偉達推理卡對标的型号,用下來發現還不錯。

雖然我們現在平台上寫了英偉達和國産算力,但是從後續的規劃來說,我們會把這部分隐藏掉。因為根據資料實測,在經過清程的系統優化後,國産算力能接近英偉達的性能,某些場景下還會更好些,是以之後我們也沒必要特意區分算力平台,這本身也符合我們公司相容和賦能多樣化算力基座的想法。

AI 科技評論:清程的官網好像還有幾個和推理引擎有關的服務暫未上線。

湯雄超:我們現在還在初創期,大部分精力都集中在研發和商業化上,官網整體上有些滞後性。

推理引擎是我們比較核心的内容,我們推理引擎完全是自研的,它是一個高性能的系統軟體,可以降低模型推理的延遲,或者提高模型的吞吐率,總之是提升性能,并且可以支援包括英偉達和國産在内的不同晶片。因為市面上大部分開源架構都是基于英偉達做的,如果要用國産晶片的話,要麼自己移植,要麼就不用,這對使用者來說比較難受。

我們所提供的是可以相容多款國産晶片的自研推理引擎,這是我們的軟體,然後基于這個軟體就是做 MaaS 平台和推理一體機。具體來說就是,如果客戶已經有機器了,那買我們的軟體就行,如果沒有機器,則有兩種選擇,一種是直接用我們的 MaaS 平台,另外一種不上雲,要私有化部署的,我們提供推理一體機。

3

智算中心最終會回歸同構

AI 科技評論:現在國産晶片廠商很多,異構混訓的概念也在業内熱議,你們想過做這塊嗎?

湯雄超:我們也在做異構混訓的工作,但我們在過去的工作中觀察到,采用不同品牌不同加速卡的 GPU 異構方案的叢集,整體上來說效率和成本效益沒有比采用單一型号 GPU 的同構叢集好,混合訓練很難發揮硬體的底層算力性能。

從商業的角度來說,我傾向于認為異構混訓是目前國産晶片産能不足情況下的妥協,過去的 HPC 行業,超算中心發展了這麼多年,我們并沒有觀察到哪個超算叢集會在裡面放不同型号的加速卡,當然可以說全世界有成百上千個超算叢集,各個叢集用不同的卡,這個是可行的,但是每個叢集内部通常都是同一款。是以,我認為随着國産晶片産能的提升,最終智算中心也會回歸到以往比較偏同構的基礎架構裡,因為單一方式可能是最高效的解決方案。

整體上來說,在目前大規模并行訓練的大課題下,異構混訓比較容易解決,更難的問題還是落在大規模本身上。打個比方,10 張英偉達和 10 張華為混訓同 10 萬張英偉達訓練相比,肯定是後者更難實作。

AI 科技評論:是以您覺得之後國内的 GPU 晶片廠商是有機會從分散走向整合的?

湯雄超:我們和國内好幾家晶片廠商都有合作,包括沐曦、燧原、天數、摩爾線程等等,每一家都有相對的優勢,各家晶片疊代速度也都很快,從長期來看的話,我認為可能會出現一定程度的集中和收斂,不過,國内可能也不太會出現美國市場那種一家獨大的情況。

因為中美國市場确實是不一樣的,從曆史上發生過的其他行業故事來看,比如智能手機和新能源汽車,美國的手機和汽車其實就是那兩家,國内确實都不是一家獨大。中國市場從人口基數上來說會更大,也更有多樣性,未來可能晶片廠商會有一定程度的收斂,但不一定會收斂到一家,最終還是會有好幾家。

AI 科技評論:現階段您在國内有比較看好的晶片廠商嗎?

湯雄超:目前有兩三家比較好,但國内晶片疊代很快,之後也不确定哪家性能會更強。AI 科技評論:目前來看,您覺得 GPU 是算力最優解嗎?

湯雄超:這個問題要看怎樣去定義。GPU 已經發展到現階段,能夠沿着 GPU 已經開拓出來的道路往前,沒必要再去走一條新路。但是說到底也還是要看上層應用的需求,包括後續 AI 算法的發展,如果 AI 算法發生了比較大的變革,以至于 GPU 架構不再适應其中的算力需求,那可能還會有新的晶片架構脫穎而出,成為新标準。

以前大家覺得手機這樣的嵌入式裝置的處理器是一個非常小的市場,但随着移動裝置的發展,會發現之前占主流的 x86 架構慢慢地就被 Arm 架構趕上來。算力硬體本質上服務于上層應用需求,如果應用發生巨變的話,底層的算力也會受到影響。不過,從目前的大模型這種形态來說,我還是認可 GPU 或類 GPU 架構是較好的。

AI 科技評論:現在海外也湧現了許多做專用晶片的廠商,但國内還是以瞄準 GPU 為主,專用晶片少有幾家,您覺得對于國内來說,專用晶片會是機會嗎?

湯雄超:我認為專用晶片跟通用晶片的抉擇國内外是一緻的。當每一種上層應用變得非常重要的時候,大家比較直覺的做法就是去做專用晶片,這樣可以在應用上取得優越的性能以及功耗方面的改進。但是因為上層應用疊代很快,大家也會希望有通用晶片能夠保證不僅現在能用,未來也能用,兩個路線很難說誰完全取代誰。整體上,我認為國内會存在專用與通用并存的情況。

AI 科技評論:CUDA 是英偉達的護城河,現在也有很多觀點認為它其實是“泥潭式”的,您覺得就國内而言怎樣去找到自己的護城河呢?

湯雄超:“泥潭式”護城河這個形容是準确的。

而我覺得國内要找到護城河,還是得從國産算力的角度出發找尋突破點,要完全 Copy 一份 CUDA,打造 CUDA 2.0 非常困難,有沒有必要去做也要打一個問号。

因為我們做算力系統的建設本身是為了支撐上層應用的需求,如果為了複制 CUDA 而去複制是沒有必要的,也不知道收益如何,但根據上層應用的需求去針對性做補全和提升的話,我們不需要把整套 CUDA 生态照搬過來,這種情況下有的放矢,要做的事情會少很多,國産算力系統也會有一些突破機會。

現在國内很多廠商在做 CUDA 相容,如果産生的效果是把 CUDA 生态裡已有的東西導入到國産算力生态,這件事情大家肯定都願意去做,至于未來會不會出現相容 CUDA 生态反過又增強 CUDA 生态的情況,目前還無法判斷。

清程極智 CEO 湯雄超:訓推一體機并非 AI Infra 的未來
清程極智 CEO 湯雄超:訓推一體機并非 AI Infra 的未來

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!

公衆号轉載請先在「AI科技評論」背景留言取得授權,轉載時需标注來源并插入本公衆号名片。

繼續閱讀