国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

從語(yǔ)言到現(xiàn)實(shí)：構(gòu)建全面理解世界的AI新紀(jì)元

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布人工智能學(xué)家

317 0 0

從語(yǔ)言到現(xiàn)實(shí)：構(gòu)建全面理解世界的AI新紀(jì)元

原標(biāo)題：李飛飛：理解世界運(yùn)作方式是AI的下一步，我們需要從大語(yǔ)言模型轉(zhuǎn)向大世界模型
文章來(lái)源：人工智能學(xué)家
內(nèi)容字?jǐn)?shù)：8545字

人工智能的視覺(jué)智能

語(yǔ)言中充滿了視覺(jué)格言，比如“眼見(jiàn)為實(shí)”，這反映了人類對(duì)視覺(jué)的重視。歷史上，直到約5.4億年前，生物才首次具備視覺(jué)能力，三葉蟲(chóng)的出現(xiàn)使得動(dòng)物們能夠感知陽(yáng)光。接下來(lái)的寒武紀(jì)大爆發(fā)時(shí)期，現(xiàn)代動(dòng)物的祖先紛紛出現(xiàn)。如今，人工智能（AI）正經(jīng)歷一場(chǎng)現(xiàn)代寒武紀(jì)大爆發(fā)，每周都有新的驚人工具問(wèn)世。

從語(yǔ)言智能到空間智能

最初，生成式AI由像ChatGPT這樣的巨大語(yǔ)言模型推動(dòng)，但空間智能，即基于視覺(jué)的智能，或許更為根本。人類的理解和互動(dòng)能力在很大程度上基于視覺(jué)。計(jì)算機(jī)視覺(jué)作為AI的一個(gè)重要子領(lǐng)域，致力于教會(huì)計(jì)算機(jī)具有人類相同或更好的空間智能。

視覺(jué)理解的進(jìn)展

過(guò)去15年，計(jì)算機(jī)視覺(jué)領(lǐng)域取得了迅速發(fā)展。通過(guò)卷積神經(jīng)網(wǎng)絡(luò)和“大數(shù)據(jù)”的結(jié)合，計(jì)算機(jī)終于能夠識(shí)別物體。2007年，ImageNet項(xiàng)目創(chuàng)建了一個(gè)包含1500萬(wàn)張標(biāo)記圖像的數(shù)據(jù)庫(kù)，涵蓋22000個(gè)物體類別，并推動(dòng)了圖像識(shí)別技術(shù)的飛速進(jìn)展。

生成性AI的崛起

隨著技術(shù)的進(jìn)步，基于變換器架構(gòu)和擴(kuò)散技術(shù)的新一代模型使得生成性AI工具得以實(shí)現(xiàn)。在視覺(jué)領(lǐng)域，這些系統(tǒng)不僅能夠識(shí)別，還能根據(jù)文本提示生成圖像和視頻。然而，目前的技術(shù)仍限于2D表現(xiàn)，真正的空間智能需要計(jì)算機(jī)能夠建模、推理事物和地點(diǎn)，并在3D空間中互動(dòng)。

未來(lái)的展望

我們已在學(xué)術(shù)界和工業(yè)界看到一些初步跡象，表明AI正向大型世界模型轉(zhuǎn)變。最新的AI模型能夠通過(guò)文本提示控制機(jī)器人，進(jìn)行實(shí)際操作，或?qū)?D圖像轉(zhuǎn)化為可探索的3D空間。這些應(yīng)用前景廣闊，包括家庭護(hù)理、外科手術(shù)輔助及教育培訓(xùn)等。