<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        數據更多更好還是質量更高更好?這項研究能幫你做出選擇

        AIGC動態1年前 (2024)發布 機器之心
        470 0 0

        數據更多更好還是質量更高更好?這項研究能幫你做出選擇

        AIGC動態歡迎閱讀

        原標題:數據更多更好還是質量更高更好?這項研究能幫你做出選擇
        關鍵字:數據,效用,模型,樣本,質量
        文章來源:機器之心
        內容字數:8259字

        內容摘要:


        機器之心報道
        編輯:Panda W當計算預算低時,重復使用高質量數據更好;當不差錢時,使用大量數據更有利。對基礎模型進行 scaling 是指使用更多數據、計算和參數進行預訓練,簡單來說就是「規模擴展」。
        雖然直接擴展模型規模看起來簡單粗暴,但也確實為機器學習社區帶來了不少表現卓越的模型。之前不少研究都認可擴大神經模型規模的做法,所謂量變引起質變,這種觀點也被稱為神經擴展律(neural scaling laws)。
        近段時間,又有不少人認為「數據」才是那些當前最佳的閉源模型的關鍵,不管是 LLM、VLM 還是擴散模型。隨著數據質量的重要性得到認可,已經涌現出了不少旨在提升數據質量的研究:要么是從大型語料庫中過濾出高質量數據,要么是生成高質量的新數據。但是,過去的擴展律一般是將「數據」視為一個同質實體,并未將近期人們關注的「數據質量」作為一個考量維度。
        盡管網絡上的數據規模龐大,但高質量數據(基于多個評估指標)通常很有限。現在,開創性的研究來了 —— 數據過濾維度上的擴展律!它來自卡內基梅隆大學和 Bosch Center for AI,其中尤其關注了「大規模」與「高質量」之間的數量


        原文鏈接:數據更多更好還是質量更高更好?這項研究能幫你做出選擇

        聯系作者

        文章來源:機器之心
        作者微信:almosthuman2014
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲avav天堂av在线网毛片| 久久精品九九亚洲精品| 亚洲AV无码乱码在线观看牲色| 亚洲午夜久久久影院| 无码精品人妻一区二区三区免费| 国产成人免费手机在线观看视频| 亚洲色偷拍区另类无码专区| 亚洲高清在线mv| 我的小后妈韩剧在线看免费高清版| 国产精品深夜福利免费观看 | 曰批免费视频播放免费| 国产成人无码免费视频97| 男女啪啪免费体验区| MM131亚洲国产美女久久| 国产在线观看免费av站| 一二三四在线播放免费观看中文版视频| 中文字幕亚洲日韩无线码| baoyu777永久免费视频| 亚洲视频在线观看网址| aa级一级天堂片免费观看| 国产精品亚洲专区无码唯爱网 | 亚洲免费在线视频播放| 日韩免费高清一级毛片| 亚洲一区无码中文字幕| 亚州免费一级毛片| 伊人久久综在合线亚洲2019| 国产又大又粗又长免费视频| 亚洲AV成人无码网站| 久久亚洲高清综合| 1000部拍拍拍18勿入免费视频软件 | 亚洲AV无码乱码在线观看牲色| 国产一区二区三区免费| 亚洲一级免费毛片| 成人福利免费视频| 国产成人综合亚洲| 国产高清在线免费| 99麻豆久久久国产精品免费 | 3344免费播放观看视频| 亚洲AV无码久久| 午夜时刻免费入口| 毛片在线全部免费观看|