從語(yǔ)言到現(xiàn)實(shí):構(gòu)建全面理解世界的AI新紀(jì)元

原標(biāo)題:李飛飛:理解世界運(yùn)作方式是AI的下一步,我們需要從大語(yǔ)言模型轉(zhuǎn)向大世界模型
文章來(lái)源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):8545字
人工智能的視覺(jué)智能
語(yǔ)言中充滿了視覺(jué)格言,比如“眼見(jiàn)為實(shí)”,這反映了人類對(duì)視覺(jué)的重視。歷史上,直到約5.4億年前,生物才首次具備視覺(jué)能力,三葉蟲(chóng)的出現(xiàn)使得動(dòng)物們能夠感知陽(yáng)光。接下來(lái)的寒武紀(jì)大爆發(fā)時(shí)期,現(xiàn)代動(dòng)物的祖先紛紛出現(xiàn)。如今,人工智能(AI)正經(jīng)歷一場(chǎng)現(xiàn)代寒武紀(jì)大爆發(fā),每周都有新的驚人工具問(wèn)世。
從語(yǔ)言智能到空間智能
最初,生成式AI由像ChatGPT這樣的巨大語(yǔ)言模型推動(dòng),但空間智能,即基于視覺(jué)的智能,或許更為根本。人類的理解和互動(dòng)能力在很大程度上基于視覺(jué)。計(jì)算機(jī)視覺(jué)作為AI的一個(gè)重要子領(lǐng)域,致力于教會(huì)計(jì)算機(jī)具有人類相同或更好的空間智能。
視覺(jué)理解的進(jìn)展
過(guò)去15年,計(jì)算機(jī)視覺(jué)領(lǐng)域取得了迅速發(fā)展。通過(guò)卷積神經(jīng)網(wǎng)絡(luò)和“大數(shù)據(jù)”的結(jié)合,計(jì)算機(jī)終于能夠識(shí)別物體。2007年,ImageNet項(xiàng)目創(chuàng)建了一個(gè)包含1500萬(wàn)張標(biāo)記圖像的數(shù)據(jù)庫(kù),涵蓋22000個(gè)物體類別,并推動(dòng)了圖像識(shí)別技術(shù)的飛速進(jìn)展。
生成性AI的崛起
隨著技術(shù)的進(jìn)步,基于變換器架構(gòu)和擴(kuò)散技術(shù)的新一代模型使得生成性AI工具得以實(shí)現(xiàn)。在視覺(jué)領(lǐng)域,這些系統(tǒng)不僅能夠識(shí)別,還能根據(jù)文本提示生成圖像和視頻。然而,目前的技術(shù)仍限于2D表現(xiàn),真正的空間智能需要計(jì)算機(jī)能夠建模、推理事物和地點(diǎn),并在3D空間中互動(dòng)。
未來(lái)的展望
我們已在學(xué)術(shù)界和工業(yè)界看到一些初步跡象,表明AI正向大型世界模型轉(zhuǎn)變。最新的AI模型能夠通過(guò)文本提示控制機(jī)器人,進(jìn)行實(shí)際操作,或?qū)?D圖像轉(zhuǎn)化為可探索的3D空間。這些應(yīng)用前景廣闊,包括家庭護(hù)理、外科手術(shù)輔助及教育培訓(xùn)等。
結(jié)論
人類進(jìn)化數(shù)億年所取得的視覺(jué)智能,現(xiàn)在在計(jì)算機(jī)中僅需幾十年即可實(shí)現(xiàn)。未來(lái)的空間智能將成為真正以人為中心的人工智能的下一個(gè)前沿,造福人類社會(huì)。
聯(lián)系作者
文章來(lái)源:人工智能學(xué)家
作者微信:
作者簡(jiǎn)介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)

粵公網(wǎng)安備 44011502001135號(hào)