AIGC動態歡迎閱讀
原標題:58行代碼把Llama 3擴展到100萬上下文,任何微調版都適用
關鍵字:上下文,模型,版本,原版,團隊
文章來源:量子位
內容字數:2600字
內容摘要:
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI堂堂開源之王Llama 3,原版上下文窗口居然只有……8k,讓到嘴邊的一句“真香”又咽回去了。?
在32k起步,100k尋常的今天,這是故意要給開源社區留做貢獻的空間嗎?
開源社區當然不會放過這個機會:
現在只需58行代碼,任何Llama 3 70b的微調版本都能自動擴展到1048k(一百萬)上下文。
背后是一個LoRA,從擴展好上下文的Llama 3 70B Instruct微調版本中提取出來,文件只有800mb。
接下來使用Mergekit,就可以與其他同架構模型一起運行或直接合并到模型中。
所使用的1048k上下文微調版本,剛剛在流行的大海撈針測試中達到全綠(100%準確率)的成績。
不得不說,開源的進步速度是指數級的。
1048k上下文LoRA怎么煉成的首先1048k上下文版Llama 3微調模型來自Gradient AI,一個企業AI解決方案初創公司。
而對應的LoRA來自開發者Eric Hartford,通過比較微調模型與原版的差異,提取出參數的變化。
他先制作了524k上下文版,隨后又更新了1048k版本。
首先,Grad
原文鏈接:58行代碼把Llama 3擴展到100萬上下文,任何微調版都適用
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...