與梯度下降等經典優化算法銜接更為緊密自然
原標題:NeurIPS 2024|杜克大學&谷歌提出SLED解碼框架,無需外部數據與額外訓練,有效緩解大語言模型幻覺,提高事實準確性
文章來源:機器之心
內容字數:4361字
自驅動 Logits 進化解碼(SLED)提升大語言模型的事實準確性
近年來,大語言模型(LLM)在多種任務中展現了卓越的性能,但幻覺(hallucination)現象導致其生成內容的準確性受到限制。為了解決這一問題,杜克大學與 Google Research 的研究團隊提出了一種新的解碼框架——自驅動 Logits 進化解碼(SLED),旨在提升 LLM 的事實準確性。該方法不依賴外部知識庫或額外微調,為模型的實際應用提供了更高的可靠性。
研究背景與思路
研究者指出,雖然用戶可能無法得到 LLM 的正確答案,但模型內部存儲的“潛在知識”可能包含正確的信息。該研究的重點在于如何挖掘這些潛在知識,并利用其增強模型輸出的準確性。SLED 方法通過對比 LLM 不同層的輸出,挖掘潛在知識,并通過一種“梯度下降”方式將其整合到原始輸出中,從而有效提升事實準確性。
方法設計
SLED 方法通過優化損失函數 L 來提高輸出中正確 token 的概率,實現 Logits 進化。研究者還發現,LLM 的訓練實際上是一個由外部驅動的 Logits 進化過程,最后一層的輸出通常更接近真實世界的分布。基于此,研究者通過反向估計潛在知識,最終實現更接近事實分布的輸出。
實驗驗證
研究團隊將 SLED 與當前最先進的方法 DoLa 進行了比較,涵蓋多種 LLM 家族和不同規模的模型。實驗結果顯示,SLED 在多項任務中均顯著提升了事實準確性,并且與其他解碼方式兼容良好。更重要的是,SLED 在計算上幾乎沒有額外開銷,且有效抑制了重復性問題,優化了輸出質量。
未來展望
SLED 為后續推理時算法提供了新的框架,結合經典優化算法提高了效率。未來的研究方向可以探索將 SLED 與監督式微調結合,以適應特定領域的需求。此外,改進框架設計也是后續研究的重點。
通過引入 SLED 方法,本研究成功提升了 LLM 在多種任務中的事實準確性,為模型的實際應用提供了更可靠的支持。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺