<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        揭開在線購物新紀(jì)元:多樣任務(wù)真實(shí)數(shù)據(jù)助力Shopping MMLU基準(zhǔn)發(fā)布!

        AIGC動態(tài)10個月前發(fā)布 量子位
        330 0 0

        基于亞馬遜真實(shí)在線購物數(shù)據(jù)打造

        揭開在線購物新紀(jì)元:多樣任務(wù)真實(shí)數(shù)據(jù)助力Shopping MMLU基準(zhǔn)發(fā)布!

        原標(biāo)題:多樣任務(wù)真實(shí)數(shù)據(jù),大模型在線購物基準(zhǔn)Shopping MMLU開源|NeurIPS&KDD Cup 2024
        文章來源:量子位
        內(nèi)容字?jǐn)?shù):5206字

        在線購物領(lǐng)域最強(qiáng)大模型的評估基準(zhǔn)——Shopping MMLU

        近期,亞馬遜聯(lián)合香港科技大學(xué)和圣母大學(xué),共同推出了一個針對在線購物領(lǐng)域的大規(guī)模評測基準(zhǔn)——Shopping MMLU。該基準(zhǔn)旨在全面評估大語言模型(LLM)在在線購物中的能力與潛力,尤其是面對多任務(wù)和少樣本學(xué)習(xí)的挑戰(zhàn)。

        一、評測基準(zhǔn)的必要性

        在線購物的復(fù)雜性主要體現(xiàn)在以下幾個方面:

        1. 多任務(wù)性:在線購物涉及多種實(shí)體(商品、屬性、評論等)和用戶行為(瀏覽、查詢、購買等),需要模型具備聯(lián)合建模能力。
        2. 少樣本性:冷啟動場景導(dǎo)致新用戶和新商品的出現(xiàn),模型需具備少樣本學(xué)習(xí)能力。

        二、Shopping MMLU的構(gòu)建

        Shopping MMLU覆蓋了四項(xiàng)在線購物能力,共計57個任務(wù),包括:

        1. 在線購物概念理解
        2. 在線購物知識推理
        3. 用戶行為理解
        4. 多語言能力

        該基準(zhǔn)大部分基于真實(shí)的亞馬遜在線購物數(shù)據(jù)構(gòu)建,經(jīng)過人工檢驗(yàn)以確保數(shù)據(jù)質(zhì)量。

        三、實(shí)驗(yàn)結(jié)果與發(fā)現(xiàn)

        研究對27個主流大語言模型進(jìn)行了評估,發(fā)現(xiàn):

        1. 閉源模型(如Claude-3)整體表現(xiàn)優(yōu)于開源模型,但后者逐漸縮小差距。
        2. 特定領(lǐng)域模型(如eCeLLM)并未在同參數(shù)量級下取得最佳成績,顯示出Shopping MMLU的難度。

        四、模型強(qiáng)化的策略

        研究分析了如何通過微調(diào)和大模型增強(qiáng)手段提升模型在Shopping MMLU上的表現(xiàn)。結(jié)果表明:

        1. 模型在不同能力和任務(wù)上的得分高度正相關(guān),表明知識的共享性。
        2. 通用能力強(qiáng)的模型在特定領(lǐng)域的應(yīng)用更為有效,微調(diào)需注重數(shù)據(jù)質(zhì)量。

        五、總結(jié)與展望

        Shopping MMLU為在線購物領(lǐng)域提供了一個全面的評測標(biāo)準(zhǔn),能夠有效評估大語言模型的能力與潛力。該基準(zhǔn)的開源與維護(hù),鼓勵研究人員深入探索相關(guān)應(yīng)用,為后續(xù)研究奠定了基礎(chǔ)。未來,Shopping MMLU將繼續(xù)吸引新模型參與評估,推動在線購物領(lǐng)域的技術(shù)進(jìn)步。

        更多信息可參考論文和GitHub資源:

        論文:鏈接

        數(shù)據(jù)及評測代碼:鏈接

        評估榜單:鏈接


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲第一成年免费网站| 免费福利网站在线观看| 亚洲天堂免费在线视频| 国产精品免费久久久久久久久 | 亚洲产国偷V产偷V自拍色戒| 综合亚洲伊人午夜网 | 亚洲精品免费在线观看| 最近免费中文字幕mv电影| 久久亚洲免费视频| 久久免费视频99| 午夜免费福利影院| 国产亚洲精品福利在线无卡一| 免费一级毛suv好看的国产网站 | 成年在线观看免费人视频草莓| 国产高清在线精品免费软件| 在线观看亚洲天天一三视| 一级特黄录像免费播放肥| 亚洲女久久久噜噜噜熟女| 无码人妻AV免费一区二区三区| 亚洲黄色网址大全| 成人毛片免费在线观看| 黄色毛片视频免费| 久久亚洲精品视频| 在线看片韩国免费人成视频| 美女视频黄免费亚洲| 亚洲福利精品一区二区三区 | 伊人久久国产免费观看视频| 无码乱肉视频免费大全合集| 亚洲精品无码aⅴ中文字幕蜜桃| 亚洲国产日韩成人综合天堂 | 亚洲一区二区女搞男| 99久久99久久精品免费观看| 亚洲伊人久久成综合人影院| 久久精品视频免费| 亚洲色无码国产精品网站可下载| 亚洲精品无码专区2| 99re热精品视频国产免费| 精品亚洲成A人在线观看青青| 亚洲av中文无码乱人伦在线r▽| 亚洲成在人线aⅴ免费毛片| 人成电影网在线观看免费|