檢索總結(jié)能力超博士后,首個(gè)大模型科研智能體PaperQA2開源了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:檢索總結(jié)能力超博士后,首個(gè)大模型科研智能體PaperQA2開源了
關(guān)鍵字:報(bào)告,研究者,問題,論文,文獻(xiàn)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:澤南、杜偉這是 AI 智能體在大部分科學(xué)研究中超越人類的第一個(gè)案例,或許會(huì)徹底改變?nèi)祟惻c科學(xué)文獻(xiàn)互動(dòng)的方式。最近一段時(shí)間,有關(guān) AI 科學(xué)家的研究越來越多。大語言模型(LLM)有望幫助科學(xué)家檢索、綜合和總結(jié)文獻(xiàn),提升人們的工作效率,但在研究工作中使用仍然有很多限制。
對(duì)于科研來說,事實(shí)性至關(guān)重要,而大模型會(huì)產(chǎn)生幻覺,有時(shí)會(huì)自信地陳述沒有任何現(xiàn)有來源或證據(jù)的信息。另外,科學(xué)需要極其注重細(xì)節(jié),而大模型在面對(duì)具有挑戰(zhàn)性的推理問題時(shí)可能會(huì)忽略或誤用細(xì)節(jié)。
最后,目前科學(xué)文獻(xiàn)的檢索和推理基準(zhǔn)尚不完善。AI 無法參考整篇文獻(xiàn),而是局限于摘要、在固定語料庫上檢索,或者只是直接提供相關(guān)論文。這些基準(zhǔn)不適合作為實(shí)際科學(xué)研究任務(wù)的性能代理,更重要的是,它們通常缺乏與人類表現(xiàn)的直接比較。因此,語言模型和智能體是否適合用于科學(xué)研究仍不清楚。
近日,來自 FutureHouse、羅切斯特大學(xué)等機(jī)構(gòu)的研究者們嘗試構(gòu)建一個(gè)更為強(qiáng)大的科研智能體,并對(duì) AI 系統(tǒng)和人類在三個(gè)現(xiàn)實(shí)任務(wù)上的表現(xiàn)進(jìn)行嚴(yán)格比較。這三個(gè)任務(wù)有關(guān)搜索整個(gè)文獻(xiàn)以回答問題;生成一篇有引用的、風(fēng)格的科學(xué)主題文章;從論文中提取
原文鏈接:檢索總結(jié)能力超博士后,首個(gè)大模型科研智能體PaperQA2開源了
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: