揭開在線購物新紀元：多樣任務真實數據助力Shopping MMLU基準發布！

基于亞馬遜真實在線購物數據打造

原標題：多樣任務真實數據，大模型在線購物基準Shopping MMLU開源｜NeurIPS&KDD Cup 2024
文章來源：量子位
內容字數：5206字

近期，亞馬遜聯合香港科技大學和圣母大學，共同推出了一個針對在線購物領域的大規模評測基準——Shopping MMLU。該基準旨在全面評估大語言模型（LLM）在在線購物中的能力與潛力，尤其是面對多任務和少樣本學習的挑戰。

在線購物的復雜性主要體現在以下幾個方面：

Shopping MMLU覆蓋了四項在線購物能力，共計57個任務，包括：

該基準大部分基于真實的亞馬遜在線購物數據構建，經過人工檢驗以確保數據質量。

研究對27個主流大語言模型進行了評估，發現：

研究分析了如何通過微調和大模型增強手段提升模型在Shopping MMLU上的表現。結果表明：

Shopping MMLU為在線購物領域提供了一個全面的評測標準，能夠有效評估大語言模型的能力與潛力。該基準的開源與維護，鼓勵研究人員深入探索相關應用，為后續研究奠定了基礎。未來，Shopping MMLU將繼續吸引新模型參與評估，推動在線購物領域的技術進步。

更多信息可參考論文和GitHub資源：

論文：鏈接

數據及評測代碼：鏈接

評估榜單：鏈接

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...