<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        艾倫AI推出業(yè)界最大文本數(shù)據(jù)集,包含3萬億Tokens,超過Llama 2

        AIGC動態(tài)2年前 (2023)發(fā)布 智東西
        635 0 0

        艾倫AI推出業(yè)界最大文本數(shù)據(jù)集,包含3萬億Tokens,超過Llama 2

        迄今為止最大的開源文本數(shù)據(jù)集。編譯|香草
        編輯|李水青
        智東西8月21日消息,艾倫AI研究所(AI2)于8月19日在其官方博客發(fā)布用于訓練大型語言模型(LLM)的文本數(shù)據(jù)集Dolma,包含3萬億個Tokens(詞例),是迄今為止最大的開放文本數(shù)據(jù)集。

        ▲按子集劃分的Dolma數(shù)據(jù)屬性概覽

        在AI競爭激烈的當下,大部分科技巨頭都傾向于保守自家大模型開發(fā)的機密。AI2在博客中稱,公司希望通過公開透明化其數(shù)據(jù)集及之后的大模型,幫助更多的研究者在此基礎上進一步進行研究和開發(fā)等工作。
        01.
        全透明構(gòu)建700億參數(shù)大模型,2024年推出


        AI2由已故微軟聯(lián)合創(chuàng)始人兼慈善家保羅·艾倫(Paul Allen)于2014年成立,致力于開展高影響力的AI研究和工程,宗旨是“AI為人類共同利益服務”(AI for the common good)。2017年,AI2推出了孵化器項目AI2 Incubator,孵化出被百度全資收購的自然語言處理公司Kitt.ai和被蘋果收購的AI圖像識別公司Xnor.ai等。自2023年3月以來,AI2一直在著手創(chuàng)建一個開放的生成語言模型AI2 OLMo(Open Language Model),旨在促進大規(guī)模自然語言處理(NLP)系統(tǒng)的研究。AI2稱將發(fā)布在整個項目中遵循的人工制品和記錄流程,以透明和開放的方式構(gòu)建OLMo。OLMo將擁有700億級別的參數(shù)規(guī)模,預計于2024年初完成。此次公布的Dolma,便是用于OLMo的數(shù)據(jù)集,其名稱來源于“Data to feed OLMo’s Appetite”——為OLMo的“胃口”提供數(shù)據(jù)。AI2認為理想的數(shù)據(jù)集應該滿足開放性、代表性、規(guī)模性、可復現(xiàn)性以及風險規(guī)避性這五個標準。像GPT-4、Claude這樣的語言模型功能強大且用途廣泛,但其訓練數(shù)據(jù)卻是保密的。AI2認為需要扭轉(zhuǎn)這一趨勢,讓數(shù)據(jù)集可以免費使用并接受監(jiān)督,也讓其他研究人員有機會在此基礎上建立更好版本的數(shù)據(jù)集。為了提供可復現(xiàn)的條件,AI2將公開在準備數(shù)據(jù)集過程中使用到的所有開發(fā)工具。

        ▲AI2統(tǒng)計的常見大模型相關屬性,其中“?”表示未公開,“~”表示部分公開

        盡管OpenAI和Meta等公司公布了用于構(gòu)建語言模型的數(shù)據(jù)集的部分重要統(tǒng)計數(shù)據(jù),但其中很多信息都被視為專有信息。除了阻礙審查和改進等原因之外,還有人猜測,這種封閉的方式可能是由于數(shù)據(jù)的獲取不道德或不合法。在AI競爭激烈的背景下,大部分公司傾向于保守其模型訓練過程的秘密。但對于其他研究人員來說,這使得這些數(shù)據(jù)集和模型更加不透明,難以研究或復現(xiàn)。
        02.
        保證Dolma數(shù)據(jù)集質(zhì)量,AI2采取四項原則


        在訓練語料庫時,可選擇的數(shù)據(jù)非常多,其數(shù)據(jù)量幾乎是一個天文數(shù)字。對此,AI2使用了四項原則來協(xié)助選擇數(shù)據(jù),分別是遵循現(xiàn)有做法、合理運用評估套件、傾向于協(xié)助實現(xiàn)核心研究方向的決策以及采取基于危害的方法來緩解風險。這四項原則內(nèi)容如下:首先,通過匹配用于創(chuàng)建其他語言數(shù)據(jù)集的方法,使更廣泛的研究界能夠利用Dolma來間接研究現(xiàn)有的或是正在開發(fā)的LLM。其次,在做出直接影響其中一項任務的數(shù)據(jù)相關決策時,選擇能夠提高指標的干預措施。例如,Dolma中加入了文本,因為它能提高K-12(學前及中小學教育)科學知識任務的性能。再次,并非所有數(shù)據(jù)集決策都與基準性能有關,例如添加包含代碼的文檔會降低許多文本基準測試的性能。AI2傾向于為其主動或前瞻性研究加入更有用的決策。最后,通過與法律道德專家的交談,根據(jù)其反饋評估了數(shù)據(jù)設計決策從而規(guī)避可能的風險。
        03.
        業(yè)界最大公開文本數(shù)據(jù)集,3萬億Tokens超Llama 2


        與市面上已經(jīng)公開的數(shù)據(jù)集相比,Dolma主要有兩點不同。首先,它比其他開放數(shù)據(jù)集規(guī)模大很多。

        ▲Dolma與其他公開數(shù)據(jù)集的屬性對比

        由表可見,除Dolma外,目前公開數(shù)據(jù)集中數(shù)據(jù)量最大的是RedPajama,為1.2萬億Tokens,被用于Llama的訓練。相比之下,Dolma的數(shù)據(jù)量是其兩倍多。此外,Llama 2訓練所使用的數(shù)據(jù)集為2萬億Tokens規(guī)模,但并未公開。GPT-3訓練使用的數(shù)據(jù)集規(guī)模為0.4萬億。其次,它遵循AI2為AI人工制品制定的許可證ImpACT,該許可證的名稱來自于AI2的四個核心價值觀:影響力(Impact)、責任(Accountability)、協(xié)作(Collaboration)和透明(Transparency)。它將人工制品劃分為低、中、高三個級別的風險,并規(guī)定了如何使用、安裝和創(chuàng)建衍生品。根據(jù)許可,研究人員須遵守:1、提供聯(lián)系信息,并說明Dolma的預期用途;2、公開基于Dolma創(chuàng)建的任何衍生產(chǎn)品;3、遵循ImpACT分發(fā)衍生產(chǎn)品;4、不將Dolma用于一系列被禁止的用途,如軍事監(jiān)控或生成虛假信息。
        04.
        結(jié)語:開放與透明為研究者提供新的探索空間


        AI2發(fā)布的Dolma數(shù)據(jù)集是迄今為止最大的開放文本數(shù)據(jù)集,為訓練大型語言模型提供了巨大的資源。在遵循風險規(guī)避等準則的前提下,選取了盡量多來源和種類的數(shù)據(jù),達到3萬億Tokens級別。Dolma的公開透明化舉措開創(chuàng)了大型數(shù)據(jù)集開源的先河,在競爭激烈的AI領域,鼓勵其他研究人員在其數(shù)據(jù)集的基礎上進行再研究和開發(fā),有助于推動產(chǎn)業(yè)的開放性和合作性發(fā)展。來源:艾倫AI研究所官方博客(本文系網(wǎng)易新聞?網(wǎng)易號特色內(nèi)容激勵計劃簽約賬號【智東西】原創(chuàng)內(nèi)容,未經(jīng)賬號授權,禁止隨意轉(zhuǎn)載。)


        2023全球AI芯片峰會預告

        9月14-15日,2023全球AI芯片峰會(GACS 2023)將登陸深圳。清華大學教授、中國半導體行業(yè)協(xié)會副理事長、IEEE Fellow魏少軍,AMD人工智能事業(yè)部高級總監(jiān)王宏強,后摩智能聯(lián)合創(chuàng)始人、研發(fā)副總裁陳亮,奎芯科技副總裁王曉陽,云天勵飛副總裁、芯片業(yè)務線總經(jīng)理李愛軍、清華大學交叉信息研究院助理教授馬愷聲、珠海芯動力CEO李原等10+位嘉賓已確認參會和演講。歡迎報名。

        智東西
        智能產(chǎn)業(yè)第一媒體!智東西專注報道人工智能主導的前沿技術發(fā)展,和技術應用帶來的千行百業(yè)產(chǎn)業(yè)升級。聚焦智能變革,服務產(chǎn)業(yè)升級。 公眾號 該公眾號已被封禁

        閱讀原文
        ? 版權聲明
        Trae官網(wǎng)

        相關文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲精品无码不卡在线播放| 曰批视频免费40分钟试看天天| 亚洲爆乳无码精品AAA片蜜桃| 最新黄色免费网站| 亚洲福利在线视频| 亚洲日本国产综合高清| 一级做a爰性色毛片免费| 日韩免费电影网站| 欧美男同gv免费网站观看| 久久亚洲色一区二区三区| 亚洲成a人片在线网站| 香港经典a毛片免费观看看| 18pao国产成视频永久免费| 在线电影你懂的亚洲| 美女露隐私全部免费直播| 亚洲Aⅴ无码一区二区二三区软件 亚洲AⅤ视频一区二区三区 | 亚洲一区二区三区自拍公司| 亚洲国产精品日韩在线| 台湾一级毛片永久免费| 中文字幕精品亚洲无线码一区 | 特级做A爰片毛片免费看无码 | 无码人妻丰满熟妇区免费| 亚洲成年看片在线观看| 亚洲mv国产精品mv日本mv| 中文字幕免费人成乱码中国| 成人性生免费视频| 亚洲激情视频网站| 免费视频成人片在线观看| 4338×亚洲全国最大色成网站| 亚洲国产精品成人AV在线| 亚洲成a人片在线播放| 男人进去女人爽免费视频国产| 亚洲国产日韩在线人成下载| 国产人成免费视频网站| 亚洲精品日韩专区silk| 日本免费人成视频播放| 亚洲精品乱码久久久久久下载| 精品免费久久久久久成人影院| 亚洲av无码专区青青草原| 毛片免费观看的视频| 久久免费香蕉视频|