随便翻開一本書的任何一頁,它都能自動介紹,不是簡單的文字識别,而是能夠總結“文章大意”;給它一幅畫,它“瞥”一眼就能言簡意赅地介紹出圖畫的内容,還能根據圖案細節猜測人物心情;當你和它面對面,它能根據你所處的場景,推測出你大概在什麼場合,還叮囑你要“好好學習”……
是的,你并沒有看錯,“它”就是商湯科技7月5日釋出的“日日新5o”——國内首個所見即所得模型。它通過整合跨模态資訊,基于聲音、文本、圖像和視訊等多種形式,帶來一種全新的AI互動模式,即實時的流式多模态互動。互動體驗對标GPT-4o。
作為2024世界人工智能大會暨人工智能全球治理進階别會議(WAIC 2024)戰略合作夥伴,商湯科技召開了“大愛無疆·向新力”人工智能論壇。現場,近千人共同見證這一創新互動模式——
從業人員剛開始僅是和“日日新5o”打個招呼,它就自動識别出從業人員佩戴的胸卡帶子上的字,判斷出現場就是世界人工智能大會會場,并表示在這個地方可以“好好學習”。
接下來從業人員拿了一隻可愛小狗玩偶,“日日新5o”準确描述了小狗的外貌、表情以及穿戴——一頂印有商湯科技logo的白帽子,很給主場人排面。
再上些難度,随便翻開一本書的任何一頁,“日日新5o”都能自動介紹,不是簡單的OCR識别文字,而是識别圖文給出好了解的總結,這一切在瞬間即可完成,真正做到實時互動。
從業人員還現場發揮“畫功”,随手畫了一隻簡筆畫小兔子,“日日新5o”直呼畫得可愛;而後從業人員又畫了一個微笑表情,“日日新5o”從這個平靜的表情中捕捉到了笑意;從業人員又改了一筆,把嘴巴畫大增添了舌頭,“日日新5o”看到後立馬說道:“這表情開心多了。”
能聽,會看,還會找話題,和“日日新5o”的互動就如同和真人對話一般。這種互動模式特别适用于實時對話和語音識别等應用,其多任務适應性強,能夠在同一模型中自然處理多種任務,且根據不同上下文自适應調整行為和輸出。
商湯科技表示,能夠實作對标GPT-4o的互動體驗,正是源于“日日新5.5”基礎模型能力的全面提升。7月5日,商湯科技正式釋出“日日新5.5”大模型體系,在今年4月商湯科技釋出的“日日新5.0”大模型基礎上又迎來多項更新,綜合性能較“日日新5.0”平均提升30%,數學推理、英文能力和指令跟随等能力明顯增強,互動效果和多項核心名額對标GPT-4o。
據了解,“日日新5.5”采用混合端雲協同專家架構,最大限度發揮雲邊端協同,降低推理成本,模型訓練基于超過10TB tokens高品質訓練資料,包括大量合成的思維鍊資料,提升推理思維能力。
為了讓更多企業使用者低門檻接入并使用“日日新”大模型體系的強大能力,商湯于近期推出了“大模型0元Go”計劃。凡是“日日新”的新注冊使用者,都可獲得涉及調用、遷徙、訓練等多項免費服務大禮包。同時,商湯還将贈送5000萬tokens包,并且派出專屬搬家顧問,幫助OpenAI使用者實作零服務成本遷移。
記者:王永娟
編輯:甯平英
審校:韋麗