Sora要徹底取代人類，還差什麼？

圖檔來源@視覺中國

文 | 商隐社，作者 | 浩然

OpenAI在2月16日淩晨釋出了文生視訊大模型Sora，在科技圈、媒體和朋友圈引起一連串的震驚和感歎。

一時間，OpenAI官網公布的由Sora生成的炸裂般視訊在網上廣為流傳。

利用Sora，隻需要輸入一段文字提示語，就能得到一段長達60秒的視訊，其中包含精細複雜的場景、生動的角色表情以及複雜的鏡頭運動，幾可亂真。

網友紛紛驚呼AI要讓電影、短視訊、遊戲等行業變天，更有人誇張地驚呼“現實世界不存在了！”。

Sora生成的視訊截圖

人類被AI替代似乎又近了一步。

這件事讓我們驚歎Sora掀起的新一輪技術變革浪潮，或許不久之後，普通人制作視訊的門檻大大降低，複雜的拍攝、剪輯等工作都會被略掉，人們的想象力和創造力成為視訊内容競争力的最核心來源。

于是，“一人公司”和極小規模團隊也有機會完成以往投入巨大人力、成本的電影和視訊内容。

技術浪潮卷起千堆雪，我們有驚歎和期待，也有被替代和拍碎的擔憂。

但這幾天我觀察到，站在技術制高點上的科學家和很多業内人士讨論最多的還是Sora的“世界模型”問題。

Sora生成視訊具有極其逼真的畫面和連貫性，有的不仔細看幾乎看不出是AI生成的，這并不簡單，需要機器懂現實世界的結構、細節、運動足迹、光影變幻等規律，不違反人的認知，之前一些大模型生成讓人啼笑皆非的圖檔，就是明顯不符合現實世界事物的運作規律。

是以有人認為Sora懂實體世界，有了“世界模型”的雛形。

AI的世界模型其實可以看作是其心智模型，反映了人工智能系統對自身和外部世界的認知和期望。

拿人類的世界模型來說，“模型”這個詞意味着我們了解的所有知識不是以一堆事實的形式儲存起來的，而是以一種能夠展現世界和它所包含的一切這種結構組織起來的。

我們不會記住關于每件物品的一系列事實，而是在大腦中建構了無數個模型，像“城門樓子”“胯骨軸子”的模型，就不是一回事，各自是什麼形狀、怎麼排布以及不同的部分是如何移動和配合工作的。

而為了認出某樣東西，我們會知道它的外觀和觸感；為了實作目标，我們會了解世界上的事物在與我們互動時的典型表現，比如咬了一口蘋果，會有什麼樣的咬痕。

但很多科學家認為Sora并不懂實體世界，沒有“世界模型”。

比如圖靈獎得主楊立昆（Yann LeCun）就認為，僅根據prompt生成逼真視訊并不能代表一個模型了解了實體世界，生成視訊的過程與基于世界模型的因果預測完全不同。

而深度學習架構“Keras”的作者、谷歌人工智能研究員弗朗索瓦·肖萊（François Chollet）認為，像Sora這樣的視訊生成模型确實嵌入了「實體模型」，但問題是：這個實體模型是否準确？它能否泛化到新的情況，即那些不僅僅是訓練資料插值的情形？

Sora生成視訊也确實出現了不少瑕疵，比如“螞蟻巢穴内爬行”的POV鏡頭，仔細看隻有4條腿；“人在跑步機跑步”的視訊是反方向；“一隻大鴨子走過波士頓的街道”中鴨子把人踩沒了。

對此，英偉達進階研究科學家範麟熙（Jim Fan)表示，我們可以從兩個角度來解釋這個問題：

（1）可能是因為這個模型根本沒有掌握實體知識，它僅僅是在無序地拼湊圖像像素；

（2）模型确實嘗試建構了一個内部的實體引擎，但這個引擎的表現還不盡人意。

業内人士認為，Sora用了“大力出奇迹”的方法，用大量資料、大模型和大量算力，底層采用了遊戲、無人駕駛和機器人領域驗證的世界模型，建構文生視訊模型，達到模拟世界的能力。

但這就像通過大量“讀圖”學習世界運作的規律，雖然也是合理的，但類比人，僅“睜眼看世界”是學不會牛頓定律等實體學可以演繹的世界規律的。

人類最終不是通過模仿鳥類，而是通過了解空氣動力學而發明了飛機。

Sora确實是AI的又一個裡程碑時刻，必将大力簡化人的勞動，減少人的“工具人”屬性，可以用來輔助甚至部分擔綱某些工作，但真正替代人或者說颠覆現實似乎還為時尚早。

是以關鍵或許還是在“世界模型”，那問題來了，我們自己是怎麼建構世界模型的？

前段時間讀了一本書——計算機科學家與神經科學家傑夫·霍金斯寫的《千腦智能》，恰好回答了人類是怎麼建立起世界模型的，而他認為AI要真正實作智能，還是得從人的大腦中探尋。

一般來說，複雜動物的大腦會随着時間推移不斷進化，在舊部分基礎上進化出新部分，進而能操縱越來越複雜的行為。

舊腦部分控制着更原始的行為，比如呼吸、饑餓、反射反應。而新腦部分也就是“新皮質”則創造出更複雜的行為，大多是有智能成分的，比如視覺、語言、音樂、數學、科學和工程。

我們思考問題時，主要也是新皮質在思考。

新皮質雖然展開像桌布那麼大，厚度大約2.5毫米，但卻有着非常複雜的皮質算法——

它有幾十個區域，分别負責視覺、聽覺、觸覺、語言、計劃等，而且各區域通過神經纖維束連接配接；

1平方毫米的新皮質中就有大約10萬個神經元，5億個神經元之間的連接配接（稱為突觸），以及幾千米長的軸突和樹突；

新皮質中随處可見精确且極其複雜的神經回路。

新皮質中的連接配接

新皮質的基本機關，也可以稱為是“智能機關”是“皮質柱”，大約有15萬根皮質柱像樂高積木一樣并排堆疊在一起，每個都可以計算任何刺激或感覺（聽覺、嗅覺、觸覺、味覺和視覺）

它能分析和處理輸入信号，無論信号類型如何。是以，每個也可以預測一個輸出。這意味着每個瞬間有15萬個預測。大腦皮層以連續時間步長預測了數以千計的現實。

我們目光移動時，皮質柱就對它将要看到的東西進行預測；

要拿起東西，皮質柱就會預測每個手指應該有什麼感覺；

想做一個動作時，皮質柱也會預測将發生什麼。

新皮質能預測最小的刺激物，如杯子把手的質地，而且每根皮質柱，都在進行預測。

但預測是前提是新皮質要知道什麼才是準确的。這主要基于過去的經驗中進行的學習。

新皮質學習的就是世界模型，這種模型是感官輸入、參考系和位置的組合。

感官輸入就像是我們喂給機器的海量資料，不過人的輸入是通過眼耳鼻舌身，基于兩種變化：世界在不斷變化，各種風吹草動都是新的輸入；人在不斷移動，每次移動輸入到大腦的資訊會完全改變。

新皮質在事件和感覺之間建立聯系。此外，它将能學習它産生的動作的效果。這是感覺運動學習。

感覺運動之中，皮質柱也在一刻不停地預測，預測得到驗證時，就意味着大腦中的世界模型是準确的。如果有任何資訊輸入與新皮質的預測不一緻，那就會提醒新皮質，它需要更新這部分世界模型。這是在錯誤中分析學習。

還有很重要的一點就是，模型一定要有參考系和位置，皮質柱如果要預測下一個輸入，也必須知道感官的移動方式。

而人的大腦也有對參考系和位置的感覺，比如我們把手放在一個物體上，就能大體知道手相對于物體的大體位置，往上碰可能就是杯口，然後意識裡有杯口的形狀、觸感，往下的一系列結構、細節也有意識。

假如沒有參考系和位置的感覺，完全不知道相對于物體的位置，就很難預測下一段輸入。

數學中我們用x、y和z坐标軸來定義某物在空間中的位置，而地理上用經緯度定義地球表面的位置，大腦也會把類似參考系的東西附着在接觸和感覺的物體上。

參考系和位置能給大腦帶來三點，一是使大腦了解某物的結構，各部分在空間中怎麼排列。

二是利用參考系來定義一個物體，大腦便可以一次性操縱整個物體。比如一旦我們了解了一輛汽車，就能想象它從不同的角度看是什麼樣子，也能辨識出它在某個次元上是否被拉長了。

三是提供了下一步計劃和移動的方向。比如拿着手機，想按下手機的電源按鈕，大腦知道目前位置和電源按鈕的位置，它就可以計算出手指需要怎樣從目前位置移到新位置。這種計算需要一個與手機位置相關的參考系。

大腦自帶的參考系可能與位置細胞和網格細胞有關，位置細胞能讓人知道身在何處，網格細胞就像紙質地圖上的行和列，覆寫在所處環境上，兩者一起為人所處環境建立一個完整的模型。

大腦不會儲存每個事物的圖像，而是儲存興趣點。這就像你的腦海中有世界的多重網格。對于大腦來說，世界是一系列記憶（動态）。需要位置來關聯位置和記憶，因為它可以讓你找到自己的路并移動。

大腦中的連接配接存儲着我們通過經驗學習的世界模型。每天我們都會經曆新的事物，并通過形成新的突觸來為模型添加新的知識片段。

15萬根皮質柱每根都是一個完整的系統，它們可能會對同一個動作同時做出成千上萬種預測，每根皮質柱的感覺都會進行傳播，同時接收來自其他皮質柱的預測，最常見的猜測會勝過最不常見的猜測，直到整個網絡确定一個答案。有種類似“票選”的機制。

是以依據人腦的原理，作者認為智能系統可以用四個标準來構成：

一是機器需要不斷學習。機器需要從錯誤中學習以更新其世界模型。

二是機器需要通過運動來學習。運動可以表征位置。如果缺少的話，對世界的表示将有偏差。

三是機器需要建立很多模型。新皮質的每個皮質柱學習一個包含數千個對象的模型，解決綁定問題（一個獨特的感覺）的過程是通過投票進行的。一台機器需要擷取相同的程序。

四是機器需要使用參考系來存儲知識。思考是一種運動。它是通過連接配接參考系中的點而出現的。如果機器不能使用運動，它就不能思考。

可能在未來幾十年裡，我們不用擔心人類被徹底替代，更不用擔心科幻小說裡那種AI産生意識、奴役人類的噩夢。但我們可能會越來越依賴機器和算法為我們提供便利，甚至做決定。

傑夫·霍金斯在他的書中反複提及人其實對自己的大腦知之甚少，有很多未解之謎，對人的研究太少，這才是我們更應該擔心的。因為與跟發展人工智能的熱情相比，我們不太注重研究人的意識，那麼計算機有了極先進的人工智能之後，可能隻會增強人類的“自然愚蠢”。

當先進的算法更了解我們，更會觸發我們的情緒，并且運用這種神奇的能力找到我們深層次的焦慮、恐懼來推銷，甚至操縱。當我們沉浸于Sora為我們打造的視覺盛宴和奇幻世界而不再對現實和自然進行感覺運動學習，不再豐富我們自己的世界模型。這才是最危險的。

事實上，人工智能還沒來操縱我們，就有很多賣課人僅利用人工智能的概念就捕獲了幾十萬人的焦慮，賺得盆滿缽滿。

Sora還沒讓我們沉浸于視覺盛宴和虛拟世界難以自拔，我們就被直播和短視訊撩得難以脫身。

大家都在玩手機，隻有人工智能在翻資料，啃資料。

參考資料：

1、[美] 傑夫·霍金斯《千腦智能》，浙江教育出版社2、機器之心《Sora到底懂不懂實體世界？一場頭腦風暴正在AI圈大佬間展開》3、新智元《Sora不懂實體世界，翻車神圖全網爆笑！LeCun馬斯克激辯世界模型》4、尤瓦爾·赫拉利《今日簡史：人類命運大議題》，中信出版社5、賽博禅心《中學生能看懂：Sora 原了解讀》

Sora要徹底取代人類，還差什麼？

Sora要徹底取代人類，還差什麼？

繼續閱讀

人類第一次看清楚：火星傳回的高清碎石照片，中國或首個采樣傳回

狂轟32+11+11！東契奇盡力了！綠軍再下一城！雙探花爆砍39+13+19

靜觀NBA | 俠和凱的差别，正如瓊斯和霍樂迪

1億保障合同報價兩冠教頭！Woj：若赫爾利想要湖人帥位就是他的

NBA總決賽：綠軍戰勝獨行俠總分2-0 東契奇三雙霍樂迪26+11

三分8中0，歐文很厲害，但不幸的是他遇到了最佳防守球員

币安使用者達2億，代币BNB創新高，趙長鵬成“美國最富囚犯”

馬上開拍！吳京、袁和平強強聯手，硬派武俠片真的能再續輝煌了？

變陣？北青：中韓戰王大雷将繼續首發當隊長，國足重點演練雙後腰

休賽期或将被球隊抛棄的五位球星：巴特勒被卸磨殺驢？威少難留隊

強如朱霍勒迪選秀時僅第17順位，當年前十都是誰？真的是選秀大年

何潔甩臉離場，情緒不穩定的人有多可怕？

主帥發聲！皇馬帶頭抵制世俱杯：FIFA隻給2000萬，拒絕參賽

世預賽迎大結局：11隊搏命，中國隊沖刺，泰國或踢30分鐘出局

又一位LPL選手辭職，被粉絲噴到破防，連夜離隊加入陪玩公司

總決賽0-2！東契奇32+11+11又輸：8失誤末節3分沮喪離場