<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        當數據之源干涸:AI研究的未來該如何開拓新天地?

        當數據之源干涸:AI研究的未來該如何開拓新天地?

        原標題:Nature研究報告:AI的數據正在枯竭,研究人員該怎么辦?
        文章來源:人工智能學家
        內容字數:10509字

        引言

        隨著人工智能(AI)技術的快速發(fā)展,特別是大型語言模型(LLMs)的崛起,研究人員正面臨數據獲取的挑戰(zhàn)。本文將探討數據耗盡現(xiàn)象、法律訴訟以及應對策略等方面的問題。

        1. 數據耗盡現(xiàn)象

        AI研究人員在過去十年中依賴于擴大神經網絡規(guī)模與數據集來提升模型能力。然而,Epoch AI的研究表明,預計到2028年,用于訓練AI模型的數據集規(guī)模將達到公共在線文本總量的上限。這意味著,AI可能會在未來四年內耗盡可用于訓練的數據,導致“數據公地”危機。

        2. 內容提供者的限制

        由于數據所有者(如新聞出版商)逐漸收緊內容使用規(guī)則,限制網絡抓取數據,這加劇了數據短缺的問題。長普(Longpre)指出,2023年,受限制的標記在主要數據集中僅占不到3%,而預計到2024年,這一比例將上升至20%-33%。

        3. 法律訴訟與合理使用

        關于數據使用的法律訴訟正在增加,多個媒體公司以版權為由AI開發(fā)者。這些案件引發(fā)了“合理使用”的討論,如果法院支持數據提供者的經濟補償請求,將進一步限制AI開發(fā)者的數據獲取。

        4. 尋找新數據路徑

        面對數據危機,AI開發(fā)者開始探索新的數據來源和策略。例如,利用社交媒體平臺的內容,或使用合成數據來訓練模型。OpenAI表示,合成數據的生成量巨大,但也可能導致模型的學習質量下降。

        5. 從“大而全”到“小而精”

        開發(fā)者們正在轉向小型、高效的LLMs,專注于特定任務。這些新模型依賴于更精煉的專用數據和改進的訓練技術,預計未來的AI發(fā)展將更多依賴于“更聰明的算法”,而非僅僅依賴于數據的數量。

        結論

        AI領域面臨的數據危機迫使研究人員和開發(fā)者重新思考數據獲取和模型訓練的策略。隨著法律和技術的變化,AI的發(fā)展可能會朝著更加高效和專業(yè)化的方向演進。


        聯(lián)系作者

        文章來源:人工智能學家
        作者微信:
        作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 永久黄色免费网站| 羞羞视频网站免费入口| 色吊丝性永久免费看码| 真实乱视频国产免费观看 | 嫩草影院免费观看| 亚洲av乱码一区二区三区| 无码乱肉视频免费大全合集| 日本免费电影一区| 亚洲暴爽av人人爽日日碰| 久久精品无码免费不卡| 亚洲麻豆精品国偷自产在线91| 亚洲成AV人影片在线观看| 美女黄网站人色视频免费国产| 亚洲中文字幕无码mv| 99免费精品视频| 亚洲一区免费观看| 亚洲三级高清免费| 亚洲国产av高清无码| 岛国精品一区免费视频在线观看 | 久草免费手机视频| 91亚洲导航深夜福利| 100000免费啪啪18免进| 亚洲国产熟亚洲女视频| 国产精品麻豆免费版| 免费观看四虎精品成人| 久久精品免费全国观看国产| 亚洲综合自拍成人| 毛片a级三毛片免费播放| 亚洲砖码砖专无区2023| 日本久久久免费高清| 一个人看的www免费高清| 中文字幕不卡亚洲| 亚洲一级毛片免费看| 亚洲一区二区三区精品视频| 色播精品免费小视频| 亚洲综合一区无码精品| 精品国产免费观看久久久 | 午夜精品射精入后重之免费观看 | 国产亚洲视频在线观看网址| 国产精品无码免费视频二三区| 九九九国产精品成人免费视频|