Transformer本可以深謀遠慮，但就是不做

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：Transformer本可以深謀遠慮，但就是不做
關鍵字：模型,語言,緩存,步驟,面包屑
文章來源：機器之心
內容字數：3851字

內容摘要：

機器之心報道
機器之心編輯部語言模型是否會規劃未來 token？這篇論文給你答案。
「別讓 Yann LeCun 看見了。」Yann LeCun 表示太遲了，他已經看到了。今天要介紹的這篇「LeCun 非要看」的論文探討的問題是：Transformer 是深謀遠慮的語言模型嗎？當它在某個位置執行推理時，它會預先考慮后面的位置嗎？
這項研究得出的結論是：Transformer 有能力這樣做，但在實踐中不會這樣做。
我們都知道，人類會思而后言。數十年的語言學研究表明：人類在使用語言時，內心會預測即將出現的語言輸入、詞或句子。
不同于人類，現在的語言模型在「說話」時會為每個 token 分配固定的計算量。那么我們不禁要問：語言模型會和人類一樣預先性地思考嗎？
近期的一些研究已經表明：可以通過探查語言模型的隱藏狀態來預測下一 token 之后的更多 token。有趣的是，通過在模型隱藏狀態上使用線性探針，可以在一定程度上預測模型在未來 token 上的輸出，而干擾隱藏狀態則可以對未來輸出進行可預測的修改。
這些發現表明在給定時間步驟的模型激活至少在一定程度上可以預測未來輸出。
但是，我們還不

原文鏈接：Transformer本可以深謀遠慮，但就是不做