體操,是所有AI視頻最殘酷的圖靈測試。
大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自數(shù)字生命卡茲克作者:卡茲克昨天Sora全網(wǎng)上線,大家也都測試了很多了。坦率的講, 產(chǎn)品完成度很高,但是模型質(zhì)量,真的有點不及預期。不過今天不是來聊Sora模型的。而是,昨天白天測試Sora的時候,生成的一段讓我發(fā)了很久的呆的體操視頻。就是這個。在前面5秒,她蓄勢抬手的時候,一切都還能看。直到真的想做動作時,一切都變成的鬼畜了起來。畫面瞬間崩塌,甚至跟異形無異。在發(fā)呆之后,同時又陷入了深思。在我這玩AI視頻的一年里面,體操,好像永遠都是所有AI視頻的噩夢。不管是Sora、Luma,還是可靈、Runway等等,在生成體操視頻時都會翻車。有的翻車翻的比較溫柔,因為他們動作幅度小。有的翻車翻得比較大,直接讓員在空中扭曲變形。體操,就是AI視頻最殘酷的圖靈測試。當年大家都在用威爾斯吃面來衡量AI視頻時,但其實,體操才是真正的那個門神。五個月前,DiT視頻模型剛剛出來的時候,一段Luma生成的體操視頻在X上就引發(fā)軒然。視頻里面,員的四肢在空中扭曲變形。這段由Luma生成的視頻不僅讓近百萬網(wǎng)友圍觀,還讓包括LeCun在內(nèi)的AI大佬們吵得不可開交。爭論的焦點只有一個:AI到底理解不理解物理規(guī)律?如今5個月過去,現(xiàn)在其實這個問題,幾乎已經(jīng)有了。物理規(guī)律,那肯定是不懂的。回到體操,為啥人的跑步、走路等動作現(xiàn)在幾乎很好,很多動物的也很穩(wěn)定,但一旦涉及到復雜動作,特別是體操這種,就直接炸了呢?其實也挺簡單的。首先,我們得聊聊體操有多難。一個標準的體操動作,比如后空翻加轉(zhuǎn)體720度,看起來只有短短兩秒鐘,但這兩秒鐘里,有大概三重對于AI來說非常地獄的難點。第一個是物理難點。不同于走路奔跑這些幾乎刻在基因里面的動作。體操,是要在一瞬間爆發(fā)出足夠的力量起跳,在空中完成兩周旋轉(zhuǎn),然后穩(wěn)穩(wěn)落地。這個過程中涉及了重力、慣性、角動量守恒等多個物理定律。坦率的講,起跳角度差1度、力量差一分,你可能最后都是落地不穩(wěn)。在現(xiàn)實世界中,一個體操員要經(jīng)過至少十年的訓練,才能這些刻在記憶里、刻在肌肉里。而AI要在短短的訓練過程中領(lǐng)悟這些規(guī)律,難度可想而知。第二個是生物力學難點。人的身體結(jié)構(gòu)極其復雜,206塊骨頭、超過600塊肌肉。每一個骨頭和肌肉,都有自己的軌跡和配合。對于人類來說,這種配合是與生俱來的本能。但對AI來說,理解這種復雜的生物力學系統(tǒng)卻是一個巨大的挑戰(zhàn)。就像在AI繪畫時經(jīng)常會畫出六根手指的人一樣,AI在生成一些復雜動作時,也經(jīng)常會在生物力學層面犯下很多致命錯誤。比如肘關(guān)節(jié)反向彎曲、膝蓋過度旋轉(zhuǎn)等等,還有最經(jīng)典的,轉(zhuǎn)身是真的只轉(zhuǎn)身不轉(zhuǎn)頭。。。這些錯誤之所以會發(fā)生,是因為AI并不真正理解人體的構(gòu)造限制。它不知道人的關(guān)節(jié)只能在特定角度活動,不懂得肌肉群之間的協(xié)同關(guān)系,更不理解人體在高速時的生物力學特性。更重要的是,AI不理解”疼痛”這個概念。在現(xiàn)實中,疼痛是人體對不合理動作的自然反饋,是保護機制的一部分。但AI生成的動作中,可不管你痛不痛,能動就行。這就好比讓一個對人體結(jié)構(gòu)一無所知的畫家,閉著眼睛畫一個體操員的動作連續(xù)圖。他可能會畫出看似流暢,實則完全違背人體工程學的畫面。而這種生物力學上的局限性,恰恰是AI在生成體操視頻時最難突破的瓶頸之一。第三個點則是美學難點。體操不是純粹的體育競技,更是一門藝術(shù)。動作的優(yōu)美程度、身體的線條感、整體的韻律美,都是體賽中的重要評分標準。一個動作即使完成了技術(shù)動作,如果缺乏美感,一樣會被扣分。動作要準,還要優(yōu)美,這對AI來說,太難了。而這三重難度疊加在一起,就成了AI的噩夢。有人說AI生成體操視頻失敗是因為訓練數(shù)據(jù)不足,有人說是數(shù)據(jù)集模糊處理導致模型無法理解人體結(jié)構(gòu)。但更深層的問題我覺得還是在于:AI終究還是在完美模仿。就像一只鸚鵡再怎么會模仿人類說話,它也不知道它所說的話是什么意思,哪怕它對答如流。這個比喻非常精準。我覺得對現(xiàn)在的大模型如此、對AI繪圖如此、對AI視頻,更是如此。當AI生成視頻時,它實際上是在進行一場概率游戲,根據(jù)已經(jīng)見過的畫面去猜測下一幀最可能是什么樣子。這就像是一個從沒學過體操的人,在試圖通過看過的視頻去復現(xiàn)一個高難度動作。但體操不是概率游戲。一些比較前沿的學術(shù)屆,也嘗試引入物理引擎模擬(比如將動作生成與物理模擬器結(jié)合),或者在損失函數(shù)中加入物理規(guī)律約束,但還都在探索階段,離所謂的世界模擬器,還差太遠太遠了。就像圖靈測試用人類對話來檢驗AI的智能水平,體操視頻我覺得就是在考驗AI對現(xiàn)實世界的理解深度。它需要AI不僅能“完美模仿”,更要理解背后的物理規(guī)律、生物力學原理和美學標準。這種理解,遠比我們想象的要深刻得多。恰恰印證了Pedro Domingos教授的判斷。通往AGI的路,也許比我們想象的還要遠一些。這條路或許很遠。但終點一定值得期待。租售GPU算力租:4090/A800/H800/H100售:現(xiàn)貨H100/H800特別適合企業(yè)級應用掃碼了解詳情?點「在看」的人都變好看了哦!

粵公網(wǎng)安備 44011502001135號