揭開在線購物新紀(jì)元:多樣任務(wù)真實(shí)數(shù)據(jù)助力Shopping MMLU基準(zhǔn)發(fā)布!
基于亞馬遜真實(shí)在線購物數(shù)據(jù)打造
原標(biāo)題:多樣任務(wù)真實(shí)數(shù)據(jù),大模型在線購物基準(zhǔn)Shopping MMLU開源|NeurIPS&KDD Cup 2024
文章來源:量子位
內(nèi)容字?jǐn)?shù):5206字
在線購物領(lǐng)域最強(qiáng)大模型的評估基準(zhǔn)——Shopping MMLU
近期,亞馬遜聯(lián)合香港科技大學(xué)和圣母大學(xué),共同推出了一個針對在線購物領(lǐng)域的大規(guī)模評測基準(zhǔn)——Shopping MMLU。該基準(zhǔn)旨在全面評估大語言模型(LLM)在在線購物中的能力與潛力,尤其是面對多任務(wù)和少樣本學(xué)習(xí)的挑戰(zhàn)。
一、評測基準(zhǔn)的必要性
在線購物的復(fù)雜性主要體現(xiàn)在以下幾個方面:
- 多任務(wù)性:在線購物涉及多種實(shí)體(商品、屬性、評論等)和用戶行為(瀏覽、查詢、購買等),需要模型具備聯(lián)合建模能力。
- 少樣本性:冷啟動場景導(dǎo)致新用戶和新商品的出現(xiàn),模型需具備少樣本學(xué)習(xí)能力。
二、Shopping MMLU的構(gòu)建
Shopping MMLU覆蓋了四項(xiàng)在線購物能力,共計57個任務(wù),包括:
- 在線購物概念理解
- 在線購物知識推理
- 用戶行為理解
- 多語言能力
該基準(zhǔn)大部分基于真實(shí)的亞馬遜在線購物數(shù)據(jù)構(gòu)建,經(jīng)過人工檢驗(yàn)以確保數(shù)據(jù)質(zhì)量。
三、實(shí)驗(yàn)結(jié)果與發(fā)現(xiàn)
研究對27個主流大語言模型進(jìn)行了評估,發(fā)現(xiàn):
- 閉源模型(如Claude-3)整體表現(xiàn)優(yōu)于開源模型,但后者逐漸縮小差距。
- 特定領(lǐng)域模型(如eCeLLM)并未在同參數(shù)量級下取得最佳成績,顯示出Shopping MMLU的難度。
四、模型強(qiáng)化的策略
研究分析了如何通過微調(diào)和大模型增強(qiáng)手段提升模型在Shopping MMLU上的表現(xiàn)。結(jié)果表明:
- 模型在不同能力和任務(wù)上的得分高度正相關(guān),表明知識的共享性。
- 通用能力強(qiáng)的模型在特定領(lǐng)域的應(yīng)用更為有效,微調(diào)需注重數(shù)據(jù)質(zhì)量。
五、總結(jié)與展望
Shopping MMLU為在線購物領(lǐng)域提供了一個全面的評測標(biāo)準(zhǔn),能夠有效評估大語言模型的能力與潛力。該基準(zhǔn)的開源與維護(hù),鼓勵研究人員深入探索相關(guān)應(yīng)用,為后續(xù)研究奠定了基礎(chǔ)。未來,Shopping MMLU將繼續(xù)吸引新模型參與評估,推動在線購物領(lǐng)域的技術(shù)進(jìn)步。
更多信息可參考論文和GitHub資源:
論文:鏈接
數(shù)據(jù)及評測代碼:鏈接
評估榜單:鏈接
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破