天天看點

“AI教母”李飛飛:Sora仍是二維圖像,隻有三維空間智能才能實作AGI|钛媒體AGI獨家

“AI教母”李飛飛:Sora仍是二維圖像,隻有三維空間智能才能實作AGI|钛媒體AGI獨家

钛媒體App 8月2日消息,日前斯坦福大學舉辦的Asian American Scholar Forum論壇的一場閉門會上,有着“AI教母”之稱的斯坦福大學教授李飛飛對钛媒體App獨家表示,盡管美國OpenAI公司的Sora模型可以文生視訊,但就本質而言,它仍屬平面二維模型,沒有三維立體了解能力,隻有“空間智能”才是AGI未來方向。

李飛飛是在針對钛媒體創始人趙何娟提出的關于“空間智能”模型和大語言模型關系的問題讨論時,做出上述回應。她進一步解釋稱,現在的多數模型如GPT4o和Gemini 1.5,都依然還是語言類模型,即輸入語言,輸出語言,雖然也有多模态模型,但仍局限于語言,即便有視訊,也是基于二維的平面圖像。但未來要實作AGI的關鍵一環是“空間智能“,需要三維視覺模型。

她以Sora展示的“日本女性走過霓虹閃爍東京街頭”的 AI 視訊做例子。

“AI教母”李飛飛:Sora仍是二維圖像,隻有三維空間智能才能實作AGI|钛媒體AGI獨家

“如果你希望算法換個角度,來展現這個女子走過街頭的視訊,比如把錄影機放在女子背後,Sora無法做到。因為這個模型對于三維世界并沒有真正的深刻了解。而人類可以在腦海中想象女子背後的情景。”李飛飛表示,“人類可以了解在複雜的環境下如何活動。我們知道如何抓取,如何控制,如何造工具,如何建造城市。根本而言,空間智能是幾何形狀,是物體間的關系,是三維空間。空間智能是關于釋放在三維空間生成(視覺地圖)并推理和規劃行動的能力。其應用是廣泛的, 比如用于AR 和VR,用于機器人,App的設計也需要空間智能。”

李飛飛向钛媒體App強調,“自然進化使動實體解三維世界,在三維空間生活、預判并互動。這種能力已有5.4億年的漫長曆史。當三葉蟲第一次在水中看到光,它必須在三維世界中‘導航’。如果不能在三維世界中‘導航’,它将很快成為其他動物的大餐。随着進化的推移,動物的空間智能能力加強。我們了解形狀,我們了解深度。”

現年48歲的李飛飛,是著名計算機科學家、美國國家工程院院士、美國國家醫學院院士,并且在美國斯坦福大學以人為本的AI研究所擔任負責人。她于2009年上司研發的ImageNet圖檔資料庫和視覺識别大賽,對海量圖檔進行精準标注和分類,推動了計算機視覺的識别能力的進步,也是促成 AI 突飛猛進發展的關鍵因素之一。去年,她公布的VoxPoser成為具身智能(Embodied AI)發展中關鍵技術方向。

今年7月,李飛飛創辦的AI公司 World Labs宣布完成兩輪融資,投資方包括a16z(Andreessen Horowitz)等,公司最新估值已達10億美元(約合72.6億元人民币)。

7月底這場亞裔美國科學家論壇閉門會上,李飛飛的演講也讓更多人了解到Word Labs和她的“空間智能”發展理念到底是什麼,即要讓AI真正“從看到,到做到”。

如何實作從“看到”到“做到”

所謂“空間智能”,是指人們或機器在三維空間中的感覺、了解和互動能力。

這一概念最早由美國心理學家霍華德·加德納(Howard Gardner)在多元智能理論中提出,讓在大腦中形成一個外部空間世界的模式,并能夠運用和操作。實際上,空間智能讓人有能力以三度空間的方式來思考,使人知覺到外在和内在的影像,也能重制、轉變或修飾影像,進而能夠在空間中從容地遊走,随心所欲地操弄物件的位置,以産生或解讀圖形的訊息。

從廣義上看,空間智能不僅包括對空間方位的感覺能力,還包括視覺辨識能力和形象思維能力。而對于機器而言,空間智能則是指其在三維空間中的視覺資料處理能力,能夠精準做出預測,并基于這些預測采取行動。這種能力使得機器能夠像人類一樣在複雜的三維世界中導航、操作和決策,進而超越傳統二維視覺的局限。

今年4月舉行的TED演講上,李飛飛坦言,視覺能力引發了寒武紀大爆發,神經系統的進化帶來了智能。“我們想要的不僅僅是能看會說的 AI,我們想要的是能做的 AI。”

在李飛飛看來,空間智能是“解決 AI 技術難題的關鍵法寶”。

7月底這場閉門活動上,李飛飛首先回顧了自10年前開始的現代 AI 三大驅動力:算法構成的“神經網絡”,即“深度學習”;現代晶片,主要是英偉達GPU晶片;以及大資料。

自2009年以來,計算機視覺領域進入爆炸式進展。機器可以迅速認出物體,和人類的表現不相上下。但這隻是冰山一角。計算機數視覺不僅可以識别靜止的物體,跟蹤移動的物體,而且可以将物體分成不同部分,甚至可以了解物體之間的關系。是以,基于圖檔大資料,計算機視覺領域突飛猛進。

李飛飛清晰地記得,大約10年前,她的學生Andrej Karpathy參與建立圖釋算法研究。他們給計算機展示一張圖檔,接着通過神經網絡,計算機可以輸出自然語言,比如說:“這是一隻貓咪躺在床上。”

“我記得告訴Andrej,讓我們反轉一下。比如給一個句子,讓計算機給出一張圖檔。我們都笑了,覺得可能永遠不會實作,或者将在很遠的未來實作,”李飛飛回憶說。

過去兩年,生成式 AI 技術迅猛發展。特别是幾個月前,OpenAI釋出了視訊生成算法Sora。她展示了她的學生們在谷歌研發的類似産品,品質非常好。這個産品在Sora釋出以前幾個月就存在了,而且所用的GPU(圖形處理器)規模比Sora少很多。問題是,接下來AI将走向何方?

“多年來,我一直表示,‘看到’即為‘了解世界’。但是我願意将這個概念推進一步,‘看到’不僅僅是為了了解,而是為了做到。自然界創造了像我們這樣有感覺能力的動物,但實際上從4.5億年前,就存在這樣的動物。因為這是進化的必要條件:看到和做到是一個閉環,” 李飛飛表示。

她用她最喜歡的貓咪作為例子。

“AI教母”李飛飛:Sora仍是二維圖像,隻有三維空間智能才能實作AGI|钛媒體AGI獨家

一隻貓咪、一杯牛奶、還有植物在桌子上的照片。當你看到這張照片時,你腦海裡其實出現一個三維視訊。你看到了形狀,你看到了幾何。

事實上,你看到了幾秒鐘前已經發生的事情,和幾秒種後可能發生的事情。你看到了這張照片的三維空間。你在計劃接下來做點什麼。你大腦在運轉,計算如何做才能拯救你的地毯,特别是這隻貓咪是你自己的,地毯也是你自己的。

“我把這一切稱作空間智能,也就是将三維世界做成模型,就物體、地點、事件等在三維空間和時間内等進行推理。在這個例子裡,我談的是真實世界,但也可以指虛拟的世界。但是空間智能的底線是将“看到”和“做到”聯系在一起。有一天,AI将可以做到這一點,“李飛飛表示。

其次,李飛飛展示了基于多張照片重建的三維視訊,然後她給出基于一張照片做的三維視訊,這些技術都可用于設計中。

李飛飛表示,具身智能AI或者人形機器人,可以将把“看到”與“做到”形成閉環。

她表示,斯坦福大學的同僚們和晶片巨頭英偉達正在聯合進行名為BEHAVIOR的研究,将家庭活動建構一個基準的動态空間,進而評估各種機器人在居家環境中的表現。“我們正在研究如何将語言模型與大型視覺模型相連接配接,進而可以指揮機器人制定計劃并開始行動,“她說。她給出三個例子,一個是機器人在打開抽屜,另一個是機器人在将手機充電線拔掉,第三個是機器人在做三明治。所有指令均通過人類的自然語言給出。

最後,她給出一個例子,認為未來屬于“空間智能”世界,人類可以坐在那裡,帶上一頂有傳感器的EEG帽子,不用張嘴說話,僅靠意念遠端告訴機器人:做一頓日式大餐吧。機器人收到意念後,解密意念,即可搞出全套大餐。

“當我們将‘看到’與‘做到’通過空間智能聯系在一起後,我們即可做到。”她表示。

李飛飛還表示,過去20年,她見證了AI激動人心的發展。但是,她認為AI或者AGI的關鍵一環就是空間智能。通過空間智能,看到世界、感覺世界、了解世界并讓機器人做事,進而形成良性閉環。

機器人将接管人類嗎?

李飛飛在會議上表示,今天人們對于AI未來可以做什麼太過誇張。她警告,人們不要将野心勃勃的、勇敢的目标與現實混為一談,人們聽到太多這樣的論調。

事實上,目前AI已經到達拐點,特别是大語言模型。“但是,它仍然是充滿錯誤的、有限的技術,仍需要人類深度參與其中,需要人類了解它的有限性。現在非常危險的論調是所謂的人類滅絕的風險,即AI正在成為人類的機器主宰。我認為,這對社會非常危險,此類言論将帶來很多意外後果。AI的局限性沒有被人類充分了解。我們需要深思熟慮的、平衡的、沒有偏見的關于AI的交流和教育,“李飛飛強調說。

李飛飛認為,AI應該紮根于人類。人類創造了它,人類正在發展它,人類正在使用它,人類也應該管理它。

李飛飛表示,在斯坦福大學“以人為本的AI “研究所,他們采取了三個對待AI的方式,包括個人、社群和社會三個層面:

  • 在個人層面,必須參與并擁抱AI。這是一個文明的科技。AI改變孩子們如何學習,改變了醫生如何使用診斷方法,改變了藝術家如何設計,改變了老師如何授課。不管是否為科技人員,均可以發揮自己的作用,用負責任地态度使用AI。
  • 在社群層面,AI可向社群賦能,可滿足社群的環境保護需求,或者農業需求。有些農業社群使用機器學習技術來檢測社群水質。藝術家社群不僅在使用AI,而且表達了他們的擔憂,以及如何解決問題、減輕風險的想法。
  • 在社會層面,政府、研究機構、企業、聯邦機構和國際機構均應該認真對待這項科技。存在能源問題,這會影響到地緣政治。仍有開源與非開源的大讨論,這影響到經濟和生态。仍有管理的問題,比如AI的風險與安全等。必須采取積極的方式,一個多方參與的方式,一個全社會的方式。現在已經沒有回頭路,李飛飛表示。她2017至2018年在谷歌上司AI項目,在2020年至2022年擔任推特的董事會成員,目前是美國白宮的AI顧問。

關于AI對于工作的影響,李飛飛分享了她的看法。

李飛飛指出,在斯坦福大學以人為本AI研究所内,有個數字經濟實驗室,由Erik Brynjolfsson教授上司。這個非常複雜的問題有很多層面。她特别強調,“工作”與“任務”是兩個不同的概念,因為實際中每個人的工作都由多項任務組成。

她以美國護士作例子。據估計,在護士8個小時的班次中,任務數以百計。是以,當人們讨論AI接管或者取代人類的工作時,必須厘清是在取代任務還是在取代工作?

李飛飛認為,AI改變了一個工作内的多項任務,是以也會逐漸改變工作的性質。在呼叫中心場景中,新手的工作品質被AI提高了30%,但是熟練人員的工作品質并未因AI而有所提升。斯坦福大學數字經濟實驗室的一篇文章呼應了李飛飛的觀點,該文章的标題是:“AI不會取代經理的工作:使用AI的經理正在取代不使用AI的經理。”

李飛飛強調,科技會帶來生産力的進步,但是生産力的進步并不會自動轉化為社會的共同繁榮。她指出,曆史上曾多次發生這樣的事件。

(本文首發于钛媒體App,作者|Chelsea_Sun,編輯|林志佳)

繼續閱讀