国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

艾倫AI推出業界最大文本數據集,包含3萬億Tokens,超過Llama 2

AIGC動態2年前 (2023)發布 智東西
636 0 0

艾倫AI推出業界最大文本數據集,包含3萬億Tokens,超過Llama 2

迄今為止最大的開源文本數據集。編譯|香草
編輯|李水青
智東西8月21日消息,艾倫AI研究所(AI2)于8月19日在其官方博客發布用于訓練大型語言模型(LLM)的文本數據集Dolma,包含3萬億個Tokens(詞例),是迄今為止最大的開放文本數據集。

▲按子集劃分的Dolma數據屬性概覽

在AI競爭激烈的當下,大部分科技巨頭都傾向于保守自家大模型開發的機密。AI2在博客中稱,公司希望通過公開透明化其數據集及之后的大模型,幫助更多的研究者在此基礎上進一步進行研究和開發等工作。
01.
全透明構建700億參數大模型,2024年推出


AI2由已故微軟聯合創始人兼慈善家保羅·艾倫(Paul Allen)于2014年成立,致力于開展高影響力的AI研究和工程,宗旨是“AI為人類共同利益服務”(AI for the common good)。2017年,AI2推出了孵化器項目AI2 Incubator,孵化出被百度全資收購的自然語言處理公司Kitt.ai和被蘋果收購的AI圖像識別公司Xnor.ai等。自2023年3月以來,AI2一直在著手創建一個開放的生成語言模型AI2 OLMo(Open Language Model),旨在促進大規模自然語言處理(NLP)系統的研究。AI2稱將發布在整個項目中遵循的人工制品和記錄流程,以透明和開放的方式構建OLMo。OLMo將擁有700億級別的參數規模,預計于2024年初完成。此次公布的Dolma,便是用于OLMo的數據集,其名稱來源于“Data to feed OLMo’s Appetite”——為OLMo的“胃口”提供數據。AI2認為理想的數據集應該滿足開放性、代表性、規模性、可復現性以及風險規避性這五個標準。像GPT-4、Claude這樣的語言模型功能強大且用途廣泛,但其訓練數據卻是保密的。AI2認為需要扭轉這一趨勢,讓數據集可以免費使用并接受監督,也讓其他研究人員有機會在此基礎上建立更好版本的數據集。為了提供可復現的條件,AI2將公開在準備數據集過程中使用到的所有開發工具。

▲AI2統計的常見大模型相關屬性,其中“?”表示未公開,“~”表示部分公開

盡管OpenAI和Meta等公司公布了用于構建語言模型的數據集的部分重要統計數據,但其中很多信息都被視為專有信息。除了阻礙審查和改進等原因之外,還有人猜測,這種封閉的方式可能是由于數據的獲取不道德或不合法。在AI競爭激烈的背景下,大部分公司傾向于保守其模型訓練過程的秘密。但對于其他研究人員來說,這使得這些數據集和模型更加不透明,難以研究或復現。
02.
保證Dolma數據集質量,AI2采取四項原則


在訓練語料庫時,可選擇的數據非常多,其數據量幾乎是一個天文數字。對此,AI2使用了四項原則來協助選擇數據,分別是遵循現有做法、合理運用評估套件、傾向于協助實現核心研究方向的決策以及采取基于危害的方法來緩解風險。這四項原則內容如下:首先,通過匹配用于創建其他語言數據集的方法,使更廣泛的研究界能夠利用Dolma來間接研究現有的或是正在開發的LLM。其次,在做出直接影響其中一項任務的數據相關決策時,選擇能夠提高指標的干預措施。例如,Dolma中加入了文本,因為它能提高K-12(學前及中小學教育)科學知識任務的性能。再次,并非所有數據集決策都與基準性能有關,例如添加包含代碼的文檔會降低許多文本基準測試的性能。AI2傾向于為其主動或前瞻性研究加入更有用的決策。最后,通過與法律道德專家的交談,根據其反饋評估了數據設計決策從而規避可能的風險。
03.
業界最大公開文本數據集,3萬億Tokens超Llama 2


與市面上已經公開的數據集相比,Dolma主要有兩點不同。首先,它比其他開放數據集規模大很多。

▲Dolma與其他公開數據集的屬性對比

由表可見,除Dolma外,目前公開數據集中數據量最大的是RedPajama,為1.2萬億Tokens,被用于Llama的訓練。相比之下,Dolma的數據量是其兩倍多。此外,Llama 2訓練所使用的數據集為2萬億Tokens規模,但并未公開。GPT-3訓練使用的數據集規模為0.4萬億。其次,它遵循AI2為AI人工制品制定的許可證ImpACT,該許可證的名稱來自于AI2的四個核心價值觀:影響力(Impact)、責任(Accountability)、協作(Collaboration)和透明(Transparency)。它將人工制品劃分為低、中、高三個級別的風險,并規定了如何使用、安裝和創建衍生品。根據許可,研究人員須遵守:1、提供聯系信息,并說明Dolma的預期用途;2、公開基于Dolma創建的任何衍生產品;3、遵循ImpACT分發衍生產品;4、不將Dolma用于一系列被禁止的用途,如軍事監控或生成虛假信息。
04.
結語:開放與透明為研究者提供新的探索空間


AI2發布的Dolma數據集是迄今為止最大的開放文本數據集,為訓練大型語言模型提供了巨大的資源。在遵循風險規避等準則的前提下,選取了盡量多來源和種類的數據,達到3萬億Tokens級別。Dolma的公開透明化舉措開創了大型數據集開源的先河,在競爭激烈的AI領域,鼓勵其他研究人員在其數據集的基礎上進行再研究和開發,有助于推動產業的開放性和合作性發展。來源:艾倫AI研究所官方博客(本文系網易新聞?網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


2023全球AI芯片峰會預告

9月14-15日,2023全球AI芯片峰會(GACS 2023)將登陸深圳。清華大學教授、中國半導體行業協會副理事長、IEEE Fellow魏少軍,AMD人工智能事業部高級總監王宏強,后摩智能聯合創始人、研發副總裁陳亮,奎芯科技副總裁王曉陽,云天勵飛副總裁、芯片業務線總經理李愛軍、清華大學交叉信息研究院助理教授馬愷聲、珠海芯動力CEO李原等10+位嘉賓已確認參會和演講。歡迎報名。

智東西
智能產業第一媒體!智東西專注報道人工智能主導的前沿技術發展,和技術應用帶來的千行百業產業升級。聚焦智能變革,服務產業升級。 公眾號 該公眾號已被封禁

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        韩国成人在线视频| 精品国产一二三区| 欧美理论片在线| 亚洲国产日韩在线一区模特| 欧美日韩一区二区电影| 亚洲成av人在线观看| 91精品国产一区二区三区香蕉| 精品一区二区久久久| 亚洲视频免费在线观看| 欧美亚洲国产怡红院影院| 青青草国产精品亚洲专区无| 亚洲精品一区二区三区99| 成人av在线看| 日韩高清欧美激情| 中文字幕欧美激情一区| 色婷婷综合在线| 狠狠网亚洲精品| 一区二区三区四区国产精品| 日韩一区二区三区电影在线观看| 国产成人免费视频网站高清观看视频| 玉足女爽爽91| 欧美激情一区二区| 日韩欧美久久久| 在线免费观看日本一区| 国产一区二区三区黄视频 | 波多野结衣亚洲一区| 婷婷久久综合九色综合绿巨人| 久久久久久久电影| 欧美一二三区精品| 欧美亚洲综合另类| proumb性欧美在线观看| 经典三级在线一区| 日韩av一区二区三区四区| 国产精品成人在线观看| 久久综合999| 日韩一级视频免费观看在线| 在线观看国产精品网站| 成人一道本在线| 高清不卡在线观看av| 韩国女主播成人在线| 日韩精品国产欧美| 亚洲成a人片在线不卡一二三区| 国产精品久久久久aaaa| 国产日产欧美一区二区三区 | kk眼镜猥琐国模调教系列一区二区| 亚洲va欧美va人人爽午夜| 成人欧美一区二区三区视频网页 | 日韩一级黄色大片| 欧美最猛性xxxxx直播| 成人激情av网| 99国产精品视频免费观看| 成人动漫av在线| 国产suv一区二区三区88区| 精品伊人久久久久7777人| 乱中年女人伦av一区二区| 免费不卡在线观看| 免费视频一区二区| 美女诱惑一区二区| 极品少妇一区二区三区精品视频| 美脚の诱脚舐め脚责91 | 91浏览器打开| 91麻豆蜜桃一区二区三区| 91麻豆国产精品久久| 色八戒一区二区三区| 欧美午夜免费电影| 91精品国产综合久久久久| 制服丝袜成人动漫| 精品国产3级a| 国产精品久久福利| 亚洲一区二三区| 免费在线成人网| 国产精品18久久久久久久久| 国产精品系列在线观看| www.在线欧美| 制服丝袜亚洲色图| 久久婷婷国产综合精品青草| 国产欧美日韩精品在线| 亚洲日本一区二区| 麻豆精品蜜桃视频网站| 国产一区二区三区免费看| 成人性生交大合| 欧美日韩免费不卡视频一区二区三区| 日韩欧美亚洲国产精品字幕久久久| 国产亚洲精品福利| 亚洲一区视频在线| 国产精品一区在线观看你懂的| 99久久伊人精品| 日韩情涩欧美日韩视频| 综合自拍亚洲综合图不卡区| 亚洲成人一区在线| 国产剧情在线观看一区二区| 色女孩综合影院| 久久午夜国产精品| 亚洲第一主播视频| 成人h动漫精品一区二区| 欧美日韩黄色影视| 国产精品久久久久影院老司 | 国产999精品久久久久久| 一本在线高清不卡dvd| 久久综合色婷婷| 五月激情丁香一区二区三区| 顶级嫩模精品视频在线看| 欧美视频一区在线| 国产精品免费人成网站| 日韩一区精品字幕| 色婷婷国产精品综合在线观看| 精品日韩欧美一区二区| 亚洲一区二区三区四区五区中文 | 国产suv精品一区二区6| 欧美卡1卡2卡| 亚洲影视在线观看| 色综合天天狠狠| 国产日韩欧美在线一区| 日韩一区精品视频| 欧美体内she精高潮| 亚洲欧美在线视频观看| 国产.精品.日韩.另类.中文.在线.播放| 欧美日韩dvd在线观看| 成人欧美一区二区三区小说 | 欧美成人一区二区| 日韩专区一卡二卡| 欧美日韩和欧美的一区二区| 一区二区三区在线看| 成人小视频在线| 国产欧美一区二区精品忘忧草| 久久97超碰国产精品超碰| 欧美一卡二卡三卡| 天使萌一区二区三区免费观看| 欧美三级一区二区| 亚洲福利视频一区二区| 欧美色偷偷大香| 五月婷婷色综合| 91麻豆精品国产91久久久使用方法 | 中文字幕亚洲在| 99久久99久久综合| 最新久久zyz资源站| 97精品国产露脸对白| 亚洲日本va午夜在线影院| 色香蕉久久蜜桃| 午夜日韩在线电影| 欧美成人在线直播| 丁香啪啪综合成人亚洲小说 | www精品美女久久久tv| 国产在线精品一区二区不卡了| 亚洲精品一区二区三区蜜桃下载| 国产精品伊人色| 亚洲图片欧美激情| 欧美日韩国产大片| 久久99精品一区二区三区| 久久久不卡网国产精品一区| 丁香婷婷综合色啪| 一区二区三区精品视频| 欧美成人国产一区二区| 国产精品99久久久久久久女警 | 国产一区二区三区美女| 国产精品每日更新在线播放网址| 91在线精品一区二区| 性欧美大战久久久久久久久| 精品黑人一区二区三区久久| www.爱久久.com| 午夜精品久久久久| 久久婷婷国产综合国色天香 | 91精品在线一区二区| 国产自产v一区二区三区c| 亚洲日本成人在线观看| 日韩视频免费观看高清在线视频| 成人一区二区三区视频在线观看| 亚洲一区二区三区四区中文字幕| 日韩午夜av一区| 91色综合久久久久婷婷| 日产国产欧美视频一区精品| 中文字幕va一区二区三区| 欧美精品第一页| 99这里只有精品| 国产伦精品一区二区三区免费 | 成人福利电影精品一区二区在线观看| 亚洲一级电影视频| 国产精品亲子伦对白| 欧美一区二区三区四区高清| 97久久精品人人爽人人爽蜜臀| 九九九久久久精品| 亚洲gay无套男同| 国产精品久久久久婷婷二区次| 欧美一级二级三级乱码| 在线观看www91| hitomi一区二区三区精品| 韩国欧美国产一区| 麻豆高清免费国产一区| 亚洲自拍偷拍网站| 亚洲天堂av一区| 欧美激情一区二区三区蜜桃视频| 精品女同一区二区| 欧美一区二区三区四区五区| 一本久久综合亚洲鲁鲁五月天 | 国产一区二区调教| 日韩精品成人一区二区在线| 亚洲一区在线播放| 尤物视频一区二区| 亚洲欧美另类在线| 亚洲精品你懂的|