西風 發自 凹非寺
量子位 | 公衆号 QbitAI
一段AI生成的體操視訊,引發近百萬網友圍觀,LeCun等一衆大佬還因為它吵起來了。
體操表演,emmmm怎麼不算呢?
通過視訊右上角的水印,此段視訊正是由那個一度被認為是“下一代”文生視訊的Dream Machine(來自Luma AI)生成的。
大夥兒看後紛紛坐不住,圍繞此讨論的,是AI視訊領域的一個熟悉的話題:AI是否了解實體規律。
LeCun直接開麥:
視訊生成模型不了解基本實體知識。更不用說人體了。
華盛頓大學計算機科學教授Pedro Domingos看後也“搖了搖頭”:
AGI可能并不會像一些人預期的那樣即将到來。
畸變雀食離譜
自Sora問世以來,“AI是否了解實體規律”這個話題就被越來越多人關注。
下面這段Sora生成的“寄居蟹用燈泡當外殼的夜間場面”是個經典的例子,海浪與沙灘的互動非常細膩,寄居蟹腿上的纖毛也活靈活現。
對比真實拍攝的類似場景照片,也就燈泡沒有電源不應該亮這一個明顯破綻了。
最近Luma AI的Dream Machine也一樣,生成的第一視角探廢棄房子真實感拉滿:
由此,不少人認為Sora、LUMA等的視訊生成模型已經了解了簡單的實體規律。
然鵝,這次被放出的視訊着實有點太離譜。
不僅腿腳亂飛,頻頻上演大變活人:
就這高難度的空中懸浮翻跟頭,也是牛頓都要被氣活了的節奏:
以至于網友看後還表示,說恐怖大可不必,說搞笑還差不多。
如此抽象,LeCun直接評論視訊生成模型不會懂實體。
他還進一步解釋,Sora或者其它視訊生成模型都有類似的問題,視訊生成技術無疑也肯定會随時間推移而進步。
但:
真正了解實體的學習系統并不會具有生成性。就像鳥類、哺乳動物等比任何視訊生成系統更了解實體。然而,它們都不能生成詳細的視訊。
類似還有另一種思考:
即使AI視訊生成模型之後會進化的很好,生成的視訊品質“完美”,那麼就意味着它了解實體了?
LeCun等的觀點,立馬引起網友的質疑:
鳥和哺乳動物也會生成詳細的視訊,隻不過是在大腦中生成無法将其具像化。
然鵝,這種反駁并未說服LeCun。
此外,還有不少人持反對意見。
例如,谷歌DeepMind/Brain團隊研究員Lucas Beyer就指出:
這就像是展示一個由幾年前的Dall·E mini生成的圖像,然後稱目前的圖像生成方式注定失敗一樣。
畢竟,之前生圖模型生成的圖像be like:
至于模型為什麼會生成如此離譜的視訊?
有網友認為是缺乏體操表演資料,還有網友認為是身體部位的模糊處理,使得模型無法了解人體結構,繼而不能保證肢體動作的連貫性。
視訊生成在計算上更為複雜,并且具有高度的上下文相關性,對詳細标注的訓練資料有更大的需求,這些需求現在還未得到充分滿足。
前段時間SD 3翻車,同樣對人體生成效果不好,網友也讨論過這一問題,過于嚴格的資料稽核,可能誤删了一些無害的成人圖像,影響了模型對人體結構的了解。
One More Thing
除了Luma AI的Dream Machine生成體操視訊大翻車,Runway的Gen-3也……
同款三頭六臂:
同款空中懸浮絕活:
參考連結:
[1]https://x.com/ylecun/status/1807497091964449266
[2]https://x.com/giffmana/status/1807511985807908926
[3]https://x.com/EricDai_BioE/status/1807540558216454281
[4]https://x.com/Grady_Booch/status/1807556807982010451
— 完 —
量子位 QbitAI · 頭條号簽約
關注我們,第一時間獲知前沿科技動态