人類(lèi)考92分的題,GPT-4只能考15分:測(cè)試一升級(jí),大模型全都現(xiàn)原形了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:人類(lèi)考92分的題,GPT-4只能考15分:測(cè)試一升級(jí),大模型全都現(xiàn)原形了
關(guān)鍵字:報(bào)告,問(wèn)題,基準(zhǔn),答案,模型
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8148字
內(nèi)容摘要:機(jī)器之心報(bào)道編輯:張倩、澤南AutoGPT 的得分也涼涼。GPT-4 自誕生以來(lái)一直是位「優(yōu)等生」,在各種考試(基準(zhǔn))中都能得高分。但現(xiàn)在,它在一份新的測(cè)試中只拿到了 15 分,而人類(lèi)能拿 92。這套名叫「GAIA」的測(cè)試題由來(lái)自 Meta-FAIR、Meta-GenAI、HuggingFace 和 AutoGPT 的團(tuán)隊(duì)制作,提出了一些需要一系列基本能力才能解決的問(wèn)題,如推理、多模態(tài)處理、網(wǎng)頁(yè)瀏覽和一般工具使用能力。這些問(wèn)題對(duì)人類(lèi)來(lái)說(shuō)非常簡(jiǎn)單,但對(duì)大多數(shù)高級(jí) AI 來(lái)說(shuō)卻極具挑戰(zhàn)性。如果里面的問(wèn)題都能解決,通關(guān)的模型將成為 AI 研究的重要里程碑。GAIA 的設(shè)計(jì)理念和當(dāng)前的很多 AI 基準(zhǔn)不一樣,后者往往傾向于設(shè)計(jì)一些對(duì)人類(lèi)來(lái)說(shuō)越來(lái)越難的任務(wù),這背后其實(shí)反映了當(dāng)前社區(qū)對(duì) AGI 理解的差異。GAIA 背后的團(tuán)隊(duì)認(rèn)為,AGI 的出現(xiàn)取決于系統(tǒng)能否在上述「簡(jiǎn)單」問(wèn)題上表現(xiàn)出與普通人類(lèi)似的穩(wěn)…
原文鏈接:點(diǎn)此閱讀原文:人類(lèi)考92分的題,GPT-4只能考15分:測(cè)試一升級(jí),大模型全都現(xiàn)原形了
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)