<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        揭開在線購物新紀元:多樣任務真實數據助力Shopping MMLU基準發布!

        AIGC動態10個月前發布 量子位
        331 0 0

        基于亞馬遜真實在線購物數據打造

        揭開在線購物新紀元:多樣任務真實數據助力Shopping MMLU基準發布!

        原標題:多樣任務真實數據,大模型在線購物基準Shopping MMLU開源|NeurIPS&KDD Cup 2024
        文章來源:量子位
        內容字數:5206字

        在線購物領域最強大模型的評估基準——Shopping MMLU

        近期,亞馬遜聯合香港科技大學和圣母大學,共同推出了一個針對在線購物領域的大規模評測基準——Shopping MMLU。該基準旨在全面評估大語言模型(LLM)在在線購物中的能力與潛力,尤其是面對多任務和少樣本學習的挑戰。

        一、評測基準的必要性

        在線購物的復雜性主要體現在以下幾個方面:

        1. 多任務性:在線購物涉及多種實體(商品、屬性、評論等)和用戶行為(瀏覽、查詢、購買等),需要模型具備聯合建模能力。
        2. 少樣本性:冷啟動場景導致新用戶和新商品的出現,模型需具備少樣本學習能力。

        二、Shopping MMLU的構建

        Shopping MMLU覆蓋了四項在線購物能力,共計57個任務,包括:

        1. 在線購物概念理解
        2. 在線購物知識推理
        3. 用戶行為理解
        4. 多語言能力

        該基準大部分基于真實的亞馬遜在線購物數據構建,經過人工檢驗以確保數據質量。

        三、實驗結果與發現

        研究對27個主流大語言模型進行了評估,發現:

        1. 閉源模型(如Claude-3)整體表現優于開源模型,但后者逐漸縮小差距。
        2. 特定領域模型(如eCeLLM)并未在同參數量級下取得最佳成績,顯示出Shopping MMLU的難度。

        四、模型強化的策略

        研究分析了如何通過微調和大模型增強手段提升模型在Shopping MMLU上的表現。結果表明:

        1. 模型在不同能力和任務上的得分高度正相關,表明知識的共享性。
        2. 通用能力強的模型在特定領域的應用更為有效,微調需注重數據質量。

        五、總結與展望

        Shopping MMLU為在線購物領域提供了一個全面的評測標準,能夠有效評估大語言模型的能力與潛力。該基準的開源與維護,鼓勵研究人員深入探索相關應用,為后續研究奠定了基礎。未來,Shopping MMLU將繼續吸引新模型參與評估,推動在線購物領域的技術進步。

        更多信息可參考論文和GitHub資源:

        論文:鏈接

        數據及評測代碼:鏈接

        評估榜單:鏈接


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲Av无码乱码在线znlu| 日韩精品免费一区二区三区| 免费国产成人高清视频网站| 亚洲va精品中文字幕| 亚洲国产精品免费在线观看| 亚洲爆乳精品无码一区二区三区| 人妻仑乱A级毛片免费看| 亚洲av无码不卡私人影院| 日韩国产精品亚洲а∨天堂免| 好吊妞在线新免费视频| 亚洲乱码在线观看| 午夜男人一级毛片免费| 亚洲精品第一国产综合亚AV| 成人免费看片又大又黄| 亚洲av成人一区二区三区在线播放| 在线观看免费为成年视频| 亚洲成a人无码亚洲成av无码| 国产精品高清全国免费观看| 羞羞视频免费网站入口| 免费v片在线观看品善网| 污污免费在线观看| 国产成人99久久亚洲综合精品| 久久久久女教师免费一区| 亚洲乱码精品久久久久..| 国产精品99久久免费观看| 亚洲色欲或者高潮影院| 久九九精品免费视频| 亚洲国产午夜精品理论片在线播放| 国产免费人视频在线观看免费| 人人公开免费超级碰碰碰视频| 国产综合精品久久亚洲| 无码少妇精品一区二区免费动态| 亚洲欧洲精品视频在线观看| 在线免费观看中文字幕| 成人免费夜片在线观看| 亚洲gv白嫩小受在线观看| 国色精品卡一卡2卡3卡4卡免费| 亚洲色偷精品一区二区三区| 亚洲人妻av伦理| 99久在线国内在线播放免费观看 | 亚洲AV无码专区日韩|