国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

艾倫AI推出業界最大文本數據集,包含3萬億Tokens,超過Llama 2

AIGC動態2年前 (2023)發布 智東西
636 0 0

艾倫AI推出業界最大文本數據集,包含3萬億Tokens,超過Llama 2

迄今為止最大的開源文本數據集。編譯|香草
編輯|李水青
智東西8月21日消息,艾倫AI研究所(AI2)于8月19日在其官方博客發布用于訓練大型語言模型(LLM)的文本數據集Dolma,包含3萬億個Tokens(詞例),是迄今為止最大的開放文本數據集。

▲按子集劃分的Dolma數據屬性概覽

在AI競爭激烈的當下,大部分科技巨頭都傾向于保守自家大模型開發的機密。AI2在博客中稱,公司希望通過公開透明化其數據集及之后的大模型,幫助更多的研究者在此基礎上進一步進行研究和開發等工作。
01.
全透明構建700億參數大模型,2024年推出


AI2由已故微軟聯合創始人兼慈善家保羅·艾倫(Paul Allen)于2014年成立,致力于開展高影響力的AI研究和工程,宗旨是“AI為人類共同利益服務”(AI for the common good)。2017年,AI2推出了孵化器項目AI2 Incubator,孵化出被百度全資收購的自然語言處理公司Kitt.ai和被蘋果收購的AI圖像識別公司Xnor.ai等。自2023年3月以來,AI2一直在著手創建一個開放的生成語言模型AI2 OLMo(Open Language Model),旨在促進大規模自然語言處理(NLP)系統的研究。AI2稱將發布在整個項目中遵循的人工制品和記錄流程,以透明和開放的方式構建OLMo。OLMo將擁有700億級別的參數規模,預計于2024年初完成。此次公布的Dolma,便是用于OLMo的數據集,其名稱來源于“Data to feed OLMo’s Appetite”——為OLMo的“胃口”提供數據。AI2認為理想的數據集應該滿足開放性、代表性、規模性、可復現性以及風險規避性這五個標準。像GPT-4、Claude這樣的語言模型功能強大且用途廣泛,但其訓練數據卻是保密的。AI2認為需要扭轉這一趨勢,讓數據集可以免費使用并接受監督,也讓其他研究人員有機會在此基礎上建立更好版本的數據集。為了提供可復現的條件,AI2將公開在準備數據集過程中使用到的所有開發工具。

▲AI2統計的常見大模型相關屬性,其中“?”表示未公開,“~”表示部分公開

盡管OpenAI和Meta等公司公布了用于構建語言模型的數據集的部分重要統計數據,但其中很多信息都被視為專有信息。除了阻礙審查和改進等原因之外,還有人猜測,這種封閉的方式可能是由于數據的獲取不道德或不合法。在AI競爭激烈的背景下,大部分公司傾向于保守其模型訓練過程的秘密。但對于其他研究人員來說,這使得這些數據集和模型更加不透明,難以研究或復現。
02.
保證Dolma數據集質量,AI2采取四項原則


在訓練語料庫時,可選擇的數據非常多,其數據量幾乎是一個天文數字。對此,AI2使用了四項原則來協助選擇數據,分別是遵循現有做法、合理運用評估套件、傾向于協助實現核心研究方向的決策以及采取基于危害的方法來緩解風險。這四項原則內容如下:首先,通過匹配用于創建其他語言數據集的方法,使更廣泛的研究界能夠利用Dolma來間接研究現有的或是正在開發的LLM。其次,在做出直接影響其中一項任務的數據相關決策時,選擇能夠提高指標的干預措施。例如,Dolma中加入了文本,因為它能提高K-12(學前及中小學教育)科學知識任務的性能。再次,并非所有數據集決策都與基準性能有關,例如添加包含代碼的文檔會降低許多文本基準測試的性能。AI2傾向于為其主動或前瞻性研究加入更有用的決策。最后,通過與法律道德專家的交談,根據其反饋評估了數據設計決策從而規避可能的風險。
03.
業界最大公開文本數據集,3萬億Tokens超Llama 2


與市面上已經公開的數據集相比,Dolma主要有兩點不同。首先,它比其他開放數據集規模大很多。

▲Dolma與其他公開數據集的屬性對比

由表可見,除Dolma外,目前公開數據集中數據量最大的是RedPajama,為1.2萬億Tokens,被用于Llama的訓練。相比之下,Dolma的數據量是其兩倍多。此外,Llama 2訓練所使用的數據集為2萬億Tokens規模,但并未公開。GPT-3訓練使用的數據集規模為0.4萬億。其次,它遵循AI2為AI人工制品制定的許可證ImpACT,該許可證的名稱來自于AI2的四個核心價值觀:影響力(Impact)、責任(Accountability)、協作(Collaboration)和透明(Transparency)。它將人工制品劃分為低、中、高三個級別的風險,并規定了如何使用、安裝和創建衍生品。根據許可,研究人員須遵守:1、提供聯系信息,并說明Dolma的預期用途;2、公開基于Dolma創建的任何衍生產品;3、遵循ImpACT分發衍生產品;4、不將Dolma用于一系列被禁止的用途,如軍事監控或生成虛假信息。
04.
結語:開放與透明為研究者提供新的探索空間


AI2發布的Dolma數據集是迄今為止最大的開放文本數據集,為訓練大型語言模型提供了巨大的資源。在遵循風險規避等準則的前提下,選取了盡量多來源和種類的數據,達到3萬億Tokens級別。Dolma的公開透明化舉措開創了大型數據集開源的先河,在競爭激烈的AI領域,鼓勵其他研究人員在其數據集的基礎上進行再研究和開發,有助于推動產業的開放性和合作性發展。來源:艾倫AI研究所官方博客(本文系網易新聞?網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


2023全球AI芯片峰會預告

9月14-15日,2023全球AI芯片峰會(GACS 2023)將登陸深圳。清華大學教授、中國半導體行業協會副理事長、IEEE Fellow魏少軍,AMD人工智能事業部高級總監王宏強,后摩智能聯合創始人、研發副總裁陳亮,奎芯科技副總裁王曉陽,云天勵飛副總裁、芯片業務線總經理李愛軍、清華大學交叉信息研究院助理教授馬愷聲、珠海芯動力CEO李原等10+位嘉賓已確認參會和演講。歡迎報名。

智東西
智能產業第一媒體!智東西專注報道人工智能主導的前沿技術發展,和技術應用帶來的千行百業產業升級。聚焦智能變革,服務產業升級。 公眾號 該公眾號已被封禁

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        国产精品福利影院| 国产精品综合二区| 久久99九九99精品| 91精品国产麻豆国产自产在线| 亚洲精品国产品国语在线app| 91美女片黄在线观看| 天天做天天摸天天爽国产一区| 欧美日韩免费视频| 国产真实乱对白精彩久久| 欧美国产一区视频在线观看| 91美女视频网站| 奇米色一区二区| 国产三级一区二区| 色诱视频网站一区| 日韩不卡一区二区| 国产精品毛片大码女人| 欧美日韩精品久久久| 国产一区二区在线视频| 夜夜夜精品看看| 日韩精品资源二区在线| 91麻豆国产福利精品| 日韩av中文字幕一区二区三区| 国产精品午夜久久| 欧美精品久久99| 成人av在线电影| 裸体歌舞表演一区二区| 亚洲激情图片小说视频| 久久久一区二区三区捆绑**| 欧洲av一区二区嗯嗯嗯啊| 国精产品一区一区三区mba视频| 亚洲你懂的在线视频| 欧美精品一区二区三区久久久 | 色综合久久久久综合99| 青青草原综合久久大伊人精品优势| 中文字幕不卡的av| 亚洲精品一线二线三线| 欧美午夜电影网| 99精品国产热久久91蜜凸| 国模无码大尺度一区二区三区| 亚洲国产欧美在线| 亚洲免费三区一区二区| 国产精品欧美综合在线| 久久久久久久综合色一本| 欧美一区二区视频网站| 91久久精品一区二区二区| av中文字幕在线不卡| 国产一区二区h| 精品一区精品二区高清| 日韩成人一级片| 三级欧美在线一区| 香蕉av福利精品导航| 亚洲影院在线观看| 一区二区三区精品久久久| 国产精品国产自产拍在线| 久久精品夜色噜噜亚洲aⅴ| 欧美不卡视频一区| 久久久久久久网| 欧美激情一区二区三区四区| 欧美激情一区不卡| 久久精品亚洲精品国产欧美kt∨| 337p粉嫩大胆噜噜噜噜噜91av| 精品毛片乱码1区2区3区| 日韩视频不卡中文| 日韩欧美一级片| 久久欧美一区二区| 日本一区二区在线不卡| 中文av字幕一区| 亚洲欧美电影一区二区| 亚洲在线视频免费观看| 亚洲高清不卡在线| 美日韩一级片在线观看| 激情图区综合网| 成人精品一区二区三区四区| 北条麻妃国产九九精品视频| 色综合久久天天综合网| 91国产福利在线| 欧美一区二区精品| 国产日韩综合av| 一区二区三区四区在线免费观看| 一区二区三区四区不卡视频| 日韩电影一区二区三区四区| 国产精品资源网站| 日本韩国一区二区三区视频| 日韩欧美视频在线 | 一本色道久久综合亚洲91| 欧美亚洲精品一区| www国产精品av| 一区二区三区四区精品在线视频| 日韩福利电影在线| 懂色av一区二区三区免费观看| 99精品欧美一区二区蜜桃免费 | 亚洲国产人成综合网站| 国产真实乱子伦精品视频| 91丝袜呻吟高潮美腿白嫩在线观看| 在线电影院国产精品| 欧美国产一区视频在线观看| 亚洲不卡在线观看| 大胆亚洲人体视频| 欧美一区二区啪啪| 一个色妞综合视频在线观看| 激情文学综合网| 欧美精选一区二区| 亚洲男人天堂av| 国产精品香蕉一区二区三区| 欧美色图一区二区三区| 国产精品无圣光一区二区| 麻豆视频一区二区| 欧美日韩一级视频| 亚洲视频免费观看| 国产精品白丝jk白祙喷水网站| 欧美日韩国产美| 亚洲精品视频一区二区| 国产成人亚洲综合a∨婷婷| 欧美一区二区三区啪啪| 亚洲国产成人av| 91久久奴性调教| 亚洲少妇30p| av亚洲精华国产精华精| 久久人人爽人人爽| 精品午夜一区二区三区在线观看| 欧美性猛交xxxx乱大交退制版| 日韩理论片网站| 成人久久视频在线观看| 日本一区二区电影| 国产精品一线二线三线| 久久久综合精品| 国产精品一二三区在线| 国产日韩欧美综合一区| 精品一区二区三区香蕉蜜桃| 日韩午夜在线播放| 另类中文字幕网| 亚洲精品一区二区三区精华液| 精品一区二区三区影院在线午夜| 日韩视频一区二区三区| 久久成人久久爱| 久久欧美中文字幕| www.亚洲精品| 有码一区二区三区| 欧美色图片你懂的| 蜜臀av性久久久久av蜜臀妖精 | 中文字幕欧美一区| 一本久久综合亚洲鲁鲁五月天 | 欧美日韩一区视频| 亚洲成人免费在线| 91精品国产综合久久精品麻豆| 日本怡春院一区二区| 精品99999| 福利电影一区二区三区| 国产精品二三区| 欧美性大战久久久| 欧美bbbbb| 欧美韩国一区二区| 欧美日韩精品是欧美日韩精品| 久久精品国产亚洲aⅴ| 国产婷婷一区二区| 91精品1区2区| 精品夜夜嗨av一区二区三区| 亚洲国产精品成人综合色在线婷婷 | 7777精品伊人久久久大香线蕉| 天堂蜜桃一区二区三区 | 欧美一三区三区四区免费在线看| 日韩黄色在线观看| 日本一区二区三区免费乱视频 | 91在线看国产| 免费久久精品视频| 国产精品久久久久久福利一牛影视| 色狠狠桃花综合| 久久国产精品免费| 亚洲精品欧美专区| 精品国产亚洲一区二区三区在线观看 | 国产精品99久| 亚洲图片欧美色图| 国产精品三级视频| 欧美一卡二卡三卡| 色综合色狠狠综合色| 久久99九九99精品| 亚洲午夜日本在线观看| 国产精品欧美经典| 日韩视频一区二区三区| 欧亚一区二区三区| 99久久久久免费精品国产 | 亚洲国产aⅴ成人精品无吗| 日本一区二区在线不卡| 3751色影院一区二区三区| 91猫先生在线| jvid福利写真一区二区三区| 免费观看成人鲁鲁鲁鲁鲁视频| 一区免费观看视频| 国产色91在线| 久久看人人爽人人| 精品免费日韩av| 日韩一区二区在线观看| 精品视频一区二区不卡| 91丝袜美腿高跟国产极品老师 | 在线电影一区二区三区| 91极品视觉盛宴| 色综合亚洲欧洲| 99久久久精品| 99视频有精品| 一本久道中文字幕精品亚洲嫩|