AIGC動態歡迎閱讀
原標題:今日arXiv最熱大模型論文:清華大學:一個簡單縮放讓大模型利用長上下文能力提升15.2%
關鍵字:位置,狀態,偏差,模型,注意力
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | 謝年年
不知道大家發現沒有,一些大模型的提示技巧總是習慣將一些重要指令或信息放在提示的開頭或者結尾。
這是因為LLMs在處理上下文的時候容易出現“lost in the middle”的位置偏差,即它們傾向于關注提示中開頭和結尾的信息而忽略中間信息。特別隨著上下文越來越長,這種位置偏差帶來的性能效果愈發嚴重。
這個問題是所有LLMs的通病,連像ChatGPT這樣的強大模型也難以避免這一問題。文獻[1]就指出,GPT-3.5-Turbo模型在試驗多文檔問答任務時,將答案放置在提示中間與末尾的性能差異高達22分。
這到底是怎么一回事?位置偏差的根源是什么?是否與LLMs的結構有關?我們又該如何減輕這一問題?接下來,我們將通過清華大學的一項研究來探討這些問題。
論文標題:Mitigate Position Bias in Large Language Models via Scaling a Single Dimension
論文鏈接:https://arxiv.org/pdf/2406.02536
出現位置偏差的原因位置偏差的微觀表現大模型的一大基本組成結構是T
原文鏈接:今日arXiv最熱大模型論文:清華大學:一個簡單縮放讓大模型利用長上下文能力提升15.2%
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189