AI完敗于人類醫(yī)生!研究發(fā)現(xiàn):大模型臨床決策草率且不安全,最低正確率僅13%
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:AI完敗于人類醫(yī)生!研究發(fā)現(xiàn):大模型臨床決策草率且不安全,最低正確率僅13%
關(guān)鍵字:解讀,模型,醫(yī)生,數(shù)據(jù),患者
文章來(lái)源:大數(shù)據(jù)文摘
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自學(xué)術(shù)頭條
人類醫(yī)生,會(huì)因?yàn)?ChatGPT 等大模型紛紛下崗嗎?
這種擔(dān)心,并非空穴來(lái)風(fēng)。畢竟,谷歌的大模型(Med-PaLM 2)已經(jīng)輕松拿下了美國(guó)醫(yī)學(xué)執(zhí)照考試,達(dá)到了醫(yī)學(xué)專家的水平。
然而,一項(xiàng)最新研究表明:在臨床方面,人類醫(yī)生完勝目前的人工智能(AI)模型,無(wú)需過(guò)于擔(dān)心個(gè)人「失業(yè)問(wèn)題」。
相關(guān)研究論文以“Evaluation and mitigation of the limitations of large language models in clinical decision-making”為題,已于近日發(fā)表在科學(xué)期刊 Nature Medicine 上。該研究發(fā)現(xiàn),即使是目前最先進(jìn)的大語(yǔ)言模型(LLM)也無(wú)法為所有患者做出準(zhǔn)確診斷,且表現(xiàn)明顯差于人類醫(yī)生——
醫(yī)生的診斷正確率為 89%,而 LLM 的診斷正確率僅為 73%。在一個(gè)極端情況(膽囊炎診斷)下,LLM 正確率僅為 13%。
更令人驚訝的是,隨著對(duì)病例信息的了解增多,LLM 的診斷準(zhǔn)確度反而會(huì)降低,有時(shí)甚至?xí)筮M(jìn)行一些可能對(duì)患者有嚴(yán)重健康風(fēng)險(xiǎn)的檢查。
化身急診科醫(yī)生,LLM 表現(xiàn)如何?盡管
原文鏈接:AI完敗于人類醫(yī)生!研究發(fā)現(xiàn):大模型臨床決策草率且不安全,最低正確率僅13%
聯(lián)系作者
文章來(lái)源:大數(shù)據(jù)文摘
作者微信:
作者簡(jiǎn)介: