打破常規(guī):LLM如何賦予AI真實的推理能力與程序性知識

原標題:AI做數(shù)學學會「動腦子」! UCL等發(fā)現(xiàn)LLM「程序性知識」,推理絕不是背答案
文章來源:新智元
內(nèi)容字數(shù):15901字
LLM推理能力研究綜述
在最新的研究中,來自UCL和Cohere等機構(gòu)的研究人員探討了大型語言模型(LLM)在推理任務中的表現(xiàn),發(fā)現(xiàn)它們并非簡單地檢索答案,而是通過一種稱為“程序性知識”的方式進行推理。這項研究揭示了LLM在處理推理任務時所依賴的知識和策略,為理解其推理能力提供了新的視角。
1. 程序性知識的發(fā)現(xiàn)
研究人員分析了LLM在執(zhí)行推理任務時使用的預訓練數(shù)據(jù),發(fā)現(xiàn)模型依賴于包含程序性知識的文檔。這些文檔提供了求解過程的示例,模型通過觀察這些示例來生成自己的推理過程。研究表明,LLM在面對不同推理任務時,所依賴的信息源并不相同,但在處理相似類型的問題時,其使用的文檔卻表現(xiàn)出一定的相似性。
2. 推理與事實性問題的區(qū)別
研究還發(fā)現(xiàn),LLM在回答事實性問題時,答案通常出現(xiàn)在最具影響力的文檔中,而在推理問題中,答案的出現(xiàn)頻率則顯著降低。這表明,LLM在推理時的表現(xiàn)與其在事實性問題上的表現(xiàn)存在明顯差異,推理過程更依賴于從更廣泛的文檔集合中進行泛化,而對單個文檔的依賴程度較低。
3. 數(shù)據(jù)污染與模型性能
研究指出,LLM的推理能力受到訓練數(shù)據(jù)中類似問題頻率的嚴重影響。這引發(fā)了對“數(shù)據(jù)污染”的關注,即基準測試數(shù)據(jù)可能與預訓練數(shù)據(jù)重合,導致模型的泛化能力受到限制。因此,如何有效選擇和設計預訓練數(shù)據(jù)成為提升LLM推理能力的關鍵。
4. 影響文檔的分析
研究團隊利用影響函數(shù)分析了哪些文檔對模型輸出產(chǎn)生了重要影響,結(jié)果顯示,文檔中的程序性知識對推理過程的軌跡具有顯著預測能力。尤其是在處理數(shù)學推理問題時,包含代碼或公式的文檔更能有效支持模型的推理過程。
5. 結(jié)論與未來展望
總的來說,這項研究提供了LLM推理能力的新見解,表明其并非簡單的模式匹配器,而是通過程序性知識進行復雜推理的能力。未來的研究可以進一步探索如何利用這種程序性知識,優(yōu)化LLM的預訓練策略,以提高其在多樣化推理任務中的表現(xiàn)。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發(fā)展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

粵公網(wǎng)安備 44011502001135號