LLM在所有子領域的預測也都超越了人類專家
LLM在神經科學預測中的應用研究
最近,來自多所知名大學的研究團隊發布了一項關于大型語言模型(LLM)在神經科學領域預測能力的研究,結果表明LLM的預測準確率顯著高于人類專家。這項研究在《自然人類行為》期刊上發表,引起了廣泛關注。
研究成果概述
1. **準確率比較**:經過BrainBench基準測試,LLM的平均預測準確率為81.4%,而人類專家的平均準確率僅為63.4%。
2. **子領域表現**:在神經科學的五個主要子領域(行為/認知、細胞/分子、系統/回路、神經疾病的神經生物學以及發育/塑性和修復)中,LLM的表現均優于人類專家,尤其是在行為認知和系統/回路方面。
3. **模型對比**:較小的模型(如Llama2-7B和Mistral-7B)與較大的模型表現相當,而經過優化的模型表現不如基礎模型。
研究方法與數據收集
4. **數據來源**:研究團隊從PubMed獲取了2002年至2022年間的332807篇神經科學相關摘要,并提取了123085篇全文,總計13億個tokens供模型訓練使用。
5. **測試用例構建**:BrainBench的測試用例通過修改論文摘要生成,參與者需從兩個版本中選擇一個包含實際研究結果的摘要。
信心評估與模型記憶
6. **信心校準**:LLMs和人類專家的預測信心均得到良好校準,高信心的預測更有可能正確。
7. **記憶評估**:研究表明LLM并未單純記憶訓練數據,而是學習到了廣泛的科學模式,這通過zlib壓縮率和困惑度比率的分析得以驗證。
前景與挑戰
8. **未來應用**:這一研究為神經科學的初步探索提供了新的方向,LLM有望用于篩選科研想法,提升研究效率。
9. **學術爭議**:盡管LLM在預測方面表現出色,但部分研究者對其實際應用表示質疑,認為實驗仍是科研的核心,且現有測試方法可能未涵蓋復雜的研究情境。
整體而言,這項研究展示了LLM在神經科學領域的潛力,未來可能擴展至更多學術研究領域,為科研提供新的工具和視角。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破