国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

艾倫AI推出業界最大文本數據集,包含3萬億Tokens,超過Llama 2

AIGC動態2年前 (2023)發布 智東西
636 0 0

艾倫AI推出業界最大文本數據集,包含3萬億Tokens,超過Llama 2

迄今為止最大的開源文本數據集。編譯|香草
編輯|李水青
智東西8月21日消息,艾倫AI研究所(AI2)于8月19日在其官方博客發布用于訓練大型語言模型(LLM)的文本數據集Dolma,包含3萬億個Tokens(詞例),是迄今為止最大的開放文本數據集。

▲按子集劃分的Dolma數據屬性概覽

在AI競爭激烈的當下,大部分科技巨頭都傾向于保守自家大模型開發的機密。AI2在博客中稱,公司希望通過公開透明化其數據集及之后的大模型,幫助更多的研究者在此基礎上進一步進行研究和開發等工作。
01.
全透明構建700億參數大模型,2024年推出


AI2由已故微軟聯合創始人兼慈善家保羅·艾倫(Paul Allen)于2014年成立,致力于開展高影響力的AI研究和工程,宗旨是“AI為人類共同利益服務”(AI for the common good)。2017年,AI2推出了孵化器項目AI2 Incubator,孵化出被百度全資收購的自然語言處理公司Kitt.ai和被蘋果收購的AI圖像識別公司Xnor.ai等。自2023年3月以來,AI2一直在著手創建一個開放的生成語言模型AI2 OLMo(Open Language Model),旨在促進大規模自然語言處理(NLP)系統的研究。AI2稱將發布在整個項目中遵循的人工制品和記錄流程,以透明和開放的方式構建OLMo。OLMo將擁有700億級別的參數規模,預計于2024年初完成。此次公布的Dolma,便是用于OLMo的數據集,其名稱來源于“Data to feed OLMo’s Appetite”——為OLMo的“胃口”提供數據。AI2認為理想的數據集應該滿足開放性、代表性、規模性、可復現性以及風險規避性這五個標準。像GPT-4、Claude這樣的語言模型功能強大且用途廣泛,但其訓練數據卻是保密的。AI2認為需要扭轉這一趨勢,讓數據集可以免費使用并接受監督,也讓其他研究人員有機會在此基礎上建立更好版本的數據集。為了提供可復現的條件,AI2將公開在準備數據集過程中使用到的所有開發工具。

▲AI2統計的常見大模型相關屬性,其中“?”表示未公開,“~”表示部分公開

盡管OpenAI和Meta等公司公布了用于構建語言模型的數據集的部分重要統計數據,但其中很多信息都被視為專有信息。除了阻礙審查和改進等原因之外,還有人猜測,這種封閉的方式可能是由于數據的獲取不道德或不合法。在AI競爭激烈的背景下,大部分公司傾向于保守其模型訓練過程的秘密。但對于其他研究人員來說,這使得這些數據集和模型更加不透明,難以研究或復現。
02.
保證Dolma數據集質量,AI2采取四項原則


在訓練語料庫時,可選擇的數據非常多,其數據量幾乎是一個天文數字。對此,AI2使用了四項原則來協助選擇數據,分別是遵循現有做法、合理運用評估套件、傾向于協助實現核心研究方向的決策以及采取基于危害的方法來緩解風險。這四項原則內容如下:首先,通過匹配用于創建其他語言數據集的方法,使更廣泛的研究界能夠利用Dolma來間接研究現有的或是正在開發的LLM。其次,在做出直接影響其中一項任務的數據相關決策時,選擇能夠提高指標的干預措施。例如,Dolma中加入了文本,因為它能提高K-12(學前及中小學教育)科學知識任務的性能。再次,并非所有數據集決策都與基準性能有關,例如添加包含代碼的文檔會降低許多文本基準測試的性能。AI2傾向于為其主動或前瞻性研究加入更有用的決策。最后,通過與法律道德專家的交談,根據其反饋評估了數據設計決策從而規避可能的風險。
03.
業界最大公開文本數據集,3萬億Tokens超Llama 2


與市面上已經公開的數據集相比,Dolma主要有兩點不同。首先,它比其他開放數據集規模大很多。

▲Dolma與其他公開數據集的屬性對比

由表可見,除Dolma外,目前公開數據集中數據量最大的是RedPajama,為1.2萬億Tokens,被用于Llama的訓練。相比之下,Dolma的數據量是其兩倍多。此外,Llama 2訓練所使用的數據集為2萬億Tokens規模,但并未公開。GPT-3訓練使用的數據集規模為0.4萬億。其次,它遵循AI2為AI人工制品制定的許可證ImpACT,該許可證的名稱來自于AI2的四個核心價值觀:影響力(Impact)、責任(Accountability)、協作(Collaboration)和透明(Transparency)。它將人工制品劃分為低、中、高三個級別的風險,并規定了如何使用、安裝和創建衍生品。根據許可,研究人員須遵守:1、提供聯系信息,并說明Dolma的預期用途;2、公開基于Dolma創建的任何衍生產品;3、遵循ImpACT分發衍生產品;4、不將Dolma用于一系列被禁止的用途,如軍事監控或生成虛假信息。
04.
結語:開放與透明為研究者提供新的探索空間


AI2發布的Dolma數據集是迄今為止最大的開放文本數據集,為訓練大型語言模型提供了巨大的資源。在遵循風險規避等準則的前提下,選取了盡量多來源和種類的數據,達到3萬億Tokens級別。Dolma的公開透明化舉措開創了大型數據集開源的先河,在競爭激烈的AI領域,鼓勵其他研究人員在其數據集的基礎上進行再研究和開發,有助于推動產業的開放性和合作性發展。來源:艾倫AI研究所官方博客(本文系網易新聞?網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


2023全球AI芯片峰會預告

9月14-15日,2023全球AI芯片峰會(GACS 2023)將登陸深圳。清華大學教授、中國半導體行業協會副理事長、IEEE Fellow魏少軍,AMD人工智能事業部高級總監王宏強,后摩智能聯合創始人、研發副總裁陳亮,奎芯科技副總裁王曉陽,云天勵飛副總裁、芯片業務線總經理李愛軍、清華大學交叉信息研究院助理教授馬愷聲、珠海芯動力CEO李原等10+位嘉賓已確認參會和演講。歡迎報名。

智東西
智能產業第一媒體!智東西專注報道人工智能主導的前沿技術發展,和技術應用帶來的千行百業產業升級。聚焦智能變革,服務產業升級。 公眾號 該公眾號已被封禁

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        日韩综合小视频| 精品视频1区2区| 白白色亚洲国产精品| 日本电影亚洲天堂一区| 免费久久精品视频| 欧美一区二区三区免费大片| 亚洲国产一区二区三区青草影视| 在线免费一区三区| 首页国产欧美久久| 精品国产3级a| a4yy欧美一区二区三区| 洋洋av久久久久久久一区| 在线播放中文字幕一区| 国产一区二区看久久| 亚洲欧美日韩国产成人精品影院| 欧美日韩久久久久久| 久久精品噜噜噜成人av农村| 国产清纯白嫩初高生在线观看91 | 欧美成人国产一区二区| 国产成人一级电影| 亚洲人成小说网站色在线| 欧洲精品一区二区三区在线观看| 日韩av电影天堂| 日本一区二区三区高清不卡| 欧美写真视频网站| 国产成人综合亚洲网站| 亚洲图片有声小说| 中文字幕免费观看一区| 欧美日韩aaaaaa| 成人黄页毛片网站| 美女在线视频一区| 亚洲黄一区二区三区| 久久综合丝袜日本网| 日本道精品一区二区三区| 久久国产人妖系列| 国产一区二区导航在线播放| 国产精品免费视频一区| 日韩欧美的一区| 在线亚洲精品福利网址导航| 国模套图日韩精品一区二区| 亚洲电影第三页| 亚洲欧洲日韩一区二区三区| 久久久久成人黄色影片| 在线不卡a资源高清| 色网综合在线观看| 日本欧美在线看| 亚洲精品免费视频| 国产日产精品一区| 精品999在线播放| 欧美日韩不卡在线| 色呦呦一区二区三区| 成人美女视频在线观看18| 国模少妇一区二区三区| 美女视频黄频大全不卡视频在线播放| 亚洲一线二线三线久久久| 国产精品福利电影一区二区三区四区| 精品国产一区二区三区久久久蜜月 | 亚洲成人激情自拍| 亚洲精品视频在线观看免费| 国产精品久久久久久户外露出| 久久精品一区二区| 精品久久久久久久人人人人传媒 | 国产精品一区二区免费不卡| 美女在线观看视频一区二区| 毛片一区二区三区| 免费在线看一区| 久久精品国产免费| 韩国成人福利片在线播放| 国产综合色在线视频区| 激情综合色丁香一区二区| 日本在线不卡视频| 精品一区二区影视| 国产成人精品一区二| 国产·精品毛片| www.日本不卡| 精品视频一区三区九区| 在线不卡中文字幕播放| 久久久另类综合| 国产精品午夜久久| 亚洲另类春色校园小说| 丝袜亚洲另类丝袜在线| 蜜桃精品视频在线| 国产精品资源在线看| av在线一区二区| 欧美在线观看一区| 日韩欧美一卡二卡| 中文字幕不卡一区| 亚洲午夜羞羞片| 精品系列免费在线观看| av在线综合网| 日韩一区二区电影网| 国产色一区二区| 亚洲免费观看高清| 日本少妇一区二区| k8久久久一区二区三区 | 91蜜桃免费观看视频| 欧美日韩久久久一区| 精品1区2区在线观看| 自拍偷在线精品自拍偷无码专区| 丝袜诱惑亚洲看片| 国产成人精品免费在线| 91搞黄在线观看| 国产日本亚洲高清| 日本亚洲三级在线| 色香蕉成人二区免费| 亚洲精品在线一区二区| 亚洲二区在线视频| 成人黄页在线观看| 欧美mv日韩mv国产网站app| 亚洲毛片av在线| 国产乱码一区二区三区| 欧美色涩在线第一页| 中文字幕欧美国产| 狠狠色狠狠色合久久伊人| 在线观看亚洲a| 国产日韩欧美高清| 秋霞电影一区二区| 欧美视频在线不卡| 国产精品黄色在线观看| 国产一区二区三区免费观看| 精品视频一区 二区 三区| 国产精品天干天干在观线| 狠狠色综合色综合网络| 91精品国产综合久久精品麻豆| 亚洲精品日韩一| 91视频在线观看| 中文字幕成人av| 懂色一区二区三区免费观看 | 欧美精品一区二区三区蜜桃视频 | 亚洲一二三区视频在线观看| 成人动漫一区二区在线| 国产亚洲精品中文字幕| 国内精品国产三级国产a久久| 91精品国产综合久久精品图片| 一区二区三区欧美久久| 91丨九色丨国产丨porny| 国产精品成人一区二区艾草 | 精品久久久久久综合日本欧美| 午夜精品久久久久| 欧美日韩免费观看一区二区三区| 一区二区三区四区视频精品免费| 一本色道**综合亚洲精品蜜桃冫| 亚洲免费看黄网站| 欧美三级在线视频| 免费成人小视频| 久久亚洲捆绑美女| 成人高清视频免费观看| 亚洲欧美日韩在线不卡| 欧美熟乱第一页| 亚洲成av人片在线观看无码| 欧美老肥妇做.爰bbww视频| 奇米影视一区二区三区小说| 日韩精品中文字幕在线不卡尤物| 国产在线一区二区| 中文字幕欧美国产| 91久久精品网| 蜜臀av亚洲一区中文字幕| 久久久久久久免费视频了| 懂色av一区二区在线播放| 一区二区三区在线视频播放| 欧美猛男男办公室激情| 久久精品国产久精国产| 欧美韩日一区二区三区四区| 91在线观看下载| 日本不卡的三区四区五区| 久久综合九色综合97婷婷女人| 成人午夜短视频| 亚洲成国产人片在线观看| 日韩一区二区三区精品视频| 成人激情午夜影院| 午夜精品影院在线观看| 国产午夜久久久久| 在线观看免费成人| 国产老肥熟一区二区三区| 亚洲午夜在线视频| 久久影音资源网| 欧美三级电影在线看| 国产.欧美.日韩| 琪琪一区二区三区| 一级做a爱片久久| 国产欧美一区二区三区在线看蜜臀 | 午夜久久久久久| 亚洲国产岛国毛片在线| 6080国产精品一区二区| 成人美女在线视频| 蜜桃av噜噜一区二区三区小说| 亚洲视频你懂的| 久久亚洲精华国产精华液| 3751色影院一区二区三区| 99在线视频精品| 国产久卡久卡久卡久卡视频精品| 午夜久久久久久| 亚洲在线视频免费观看| 国产欧美视频一区二区三区| 欧美大片国产精品| 91麻豆精品国产91| 欧美性猛交xxxxxx富婆| 99re热这里只有精品免费视频| 国产精品资源网| 国产精品一区一区三区|