天天看點

AI見聞日報:将上下文學習能力從語言遷移到視覺,MetaVL開啟下一個多模态時代 | 見智研究

作者:華爾街見聞

今日要點:

1、蘋果在 iOS17 中加入transformer語言模型,用于提高文字和語音轉文字時的準确性。

2、蘋果開發人員:Vision Pro裡用了“腦機接口”,通過檢測眼睛等準确預測使用者下一步要做什麼

3、MetaVL: 将上下文學習能力從語言模型遷移到視覺,開啟下一個多模态時代

4、Runway獲得1億美元D輪融資,谷歌領投

見聞視角

海外AI

1、蘋果在ios17中加入transformer語言模型,用于提高文字和語音轉文字時的準确性。

蘋果在今日更新的ios系統介紹中,闡述了使用transformer語言模型,用于提高文字和語音轉文字時的準确性,通過用于單詞預測——提高了使用者每次鍵入時的體驗和準确性。而這個模型如同蘋果一直以來強調對使用者的隐私保護一樣,是在手機端的模型。

AI見聞日報:将上下文學習能力從語言遷移到視覺,MetaVL開啟下一個多模态時代 | 見智研究

見智研究認為,蘋果使用transformer模型用于一些基礎應用符合蘋果一直以來的務實精神,蘋果從不強調某項技術是否先進,而是要在使用者體驗上做到極緻。這也是蘋果一直強調技術落地到應用的展現。

見智研究相信蘋果裝置在明年将會擁有自己的llm模型,而這個模型按照蘋果一貫的隐私保護模式,應為純本地化的模型。

2、蘋果開發人員:Vision Pro裡用了“腦機”,通過檢測眼睛準确預測使用者下一步要做什麼

一位在AR/VR領域工作十年、擔任蘋果AR神經技術研究員的網友Sterling Crispin發推文,介紹了蘋果AR的神經技術研發

根據Crispin的介紹和蘋果的專利說明,蘋果的神經技術可以做到預測使用者行為、根據使用者狀态調整虛拟環境。

最酷的結果是在使用者實際點選之前預測他們會點選什麼,人們的瞳孔在點選之前往往有反應,原因是人們會期望在點選之後會發生什麼。

這時可以通過監測使用者的眼睛行為來創造生物回報,并實時重新設計使用者界面,以創造更多預期的瞳孔反應。這是一個通過眼睛實作的粗略“腦機接口”,使用者不用接受侵入性的腦部外科手術。

推斷認知狀态的其他技術,包括以使用者可能無法察覺的方式向他們快速閃現視覺或聲音,然後測量他們的反應。

見智研究認為,蘋果通過全新的神經技術對人的行為進行預測,進而大幅減小了vision産品整個UI操作的延遲,大幅提升使用者體驗。從無數細節中可以看到,蘋果在用搬山能力處理每一個細節,這個軟硬整合能力,不是誰能可以随便模仿的,它所展現的每一個細節,都看出蘋果花費巨大的功夫在解決互動體驗。這也是蘋果之是以偉大的地方。

3、MetaVL: 将上下文學習能力從語言模型遷移到視覺,開啟下一個多模态時代

  • 動機:研究如何在視覺-語言領域實作上下文學習,将單模态的元學習知識轉移到多模态中,以提高大規模預訓練視覺-語言(VL)模型的能力。
  • 方法:首先在自然語言處理(NLP)任務上元訓練一個語言模型,實作上下文學習,然後通過連接配接一個視覺編碼器将該模型轉移到視覺-語言任務上,以實作跨模态的上下文學習能力的轉移。
  • 優勢:實驗證明,跨模态的上下文學習能力可以轉移,該模型顯著提高了視覺-語言任務上的上下文學習能力,并且在模型大小方面能夠有顯著的優化,例如在VQA、OK-VQA和GQA上,所提出方法在參數數量減少約20倍的情況下超過了基準模型。

見智研究一句話總結:

M Monajatipoor, L H Li, M Rouhsedaghat, L F. Yang, K Chang探索了将元學習的上下文學習能力從單模态遷移到多模态的可能性,證明了在視覺-語言任務中通過遷移可以顯著提升上下文學習能力,甚至在模型大小方面實作優化。

這意味着多模态情況下的對話能力将得到加強,對于現有的文生圖來說可能會帶來新的變化,生成模式對使用者将更友好。

4、Runway獲得1億美元D輪融資,谷歌領投

生成式AI平台Runway獲得1億美元D輪融資(約7億元),估值15億美元,本次由谷歌領投。谷歌投資Runway的最大原因之一是為了争奪雲計算客戶。

Runway曾在4月底與谷歌簽訂了7500萬美元的3年商業協定,同時Runway已從谷歌獲得了價值2000萬美元的雲計算資源用于産品營運和研發。

AI見聞日報:将上下文學習能力從語言遷移到視覺,MetaVL開啟下一個多模态時代 | 見智研究
AI見聞日報:将上下文學習能力從語言遷移到視覺,MetaVL開啟下一個多模态時代 | 見智研究

見智研究曾使用過GEN-1生成相應視訊特效,但目前可玩性不算高。Gen-2是Runway在今年3月最新釋出的,但目前手機用戶端還未提供使用。Gen-2可以通過文本、圖檔、文本+圖檔直接生成視訊,同時支援風格化和渲染添加好萊塢式大片特效,僅需要幾分鐘即可完成所有操作。

本文來自華爾街見聞,歡迎下載下傳APP檢視更多

繼續閱讀