Ilya帶頭OpenAI超級(jí)對(duì)齊首篇論文《弱到強(qiáng)的泛化:在弱監(jiān)督下獲得強(qiáng)能力》,AI對(duì)齊AI取得實(shí)證結(jié)果
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Ilya帶頭OpenAI超級(jí)對(duì)齊首篇論文《弱到強(qiáng)的泛化:在弱監(jiān)督下獲得強(qiáng)能力》,AI對(duì)齊AI取得實(shí)證結(jié)果
關(guān)鍵字:模型,人類(lèi),報(bào)告,監(jiān)督者,人工智能
文章來(lái)源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):5621字
內(nèi)容摘要:來(lái)源:轉(zhuǎn)載機(jī)器之心報(bào)道編輯:陳萍、蛋醬人類(lèi)無(wú)法監(jiān)督超級(jí)人工智能,但人工智能可以。過(guò)去一年,以「預(yù)測(cè)下一個(gè) Token」為本質(zhì)的大模型已經(jīng)橫掃人類(lèi)世界的多項(xiàng)任務(wù),展現(xiàn)了人工智能的巨大潛力。在近日的一次訪(fǎng)談中,OpenAI 首席科學(xué)家 Ilya Sutskever 大膽預(yù)言,如果模型能夠很好地預(yù)測(cè)下一個(gè)詞,那么意味著它能夠理解導(dǎo)致這個(gè)詞產(chǎn)生的深刻現(xiàn)實(shí)。這意味著,如果 AI 按照現(xiàn)有路徑發(fā)展下去,也許在不久的將來(lái),一個(gè)超越人類(lèi)的人工智能系統(tǒng)就會(huì)誕生。但更加令人擔(dān)心的是,「超級(jí)人工智能」可能會(huì)帶來(lái)一些意想不到的負(fù)面后果。這也是「對(duì)齊」的意義。此前的對(duì)齊方法依賴(lài)于人類(lèi)的監(jiān)督,如在 ChatGPT 訓(xùn)練中起到關(guān)鍵作用的人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)。但未來(lái)的人工智能系統(tǒng)或許能夠做出極其復(fù)雜和富有創(chuàng)造性的行為,使人類(lèi)難以對(duì)其進(jìn)行可靠的監(jiān)督。例如,超人類(lèi)模型可能會(huì)編寫(xiě)出數(shù)百萬(wàn)行新奇的、具有潛在危險(xiǎn)的計(jì)算機(jī)…
聯(lián)系作者
文章來(lái)源:人工智能學(xué)家
作者微信:AItists
作者簡(jiǎn)介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)