訓(xùn)出GPT-5短缺20萬(wàn)億token!OpenAI被曝計(jì)劃建「數(shù)據(jù)市場(chǎng)」
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:訓(xùn)出GPT-5短缺20萬(wàn)億token!OpenAI被曝計(jì)劃建「數(shù)據(jù)市場(chǎng)」
關(guān)鍵字:數(shù)據(jù),模型,政策,人工智能,研究人員
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):5506字
內(nèi)容摘要:
新智元報(bào)道編輯:桃子
【新智元導(dǎo)讀】全網(wǎng)高質(zhì)量數(shù)據(jù)集告急!OpenAI、Anthropic等AI公司正在開(kāi)拓新方法,訓(xùn)練下一代AI模型。全網(wǎng)真的無(wú)數(shù)據(jù)可用了!
外媒報(bào)道稱,OpenAl、Anthropic等公司正在努力尋找足夠的信息,來(lái)訓(xùn)練下一代人工智能模型。
前幾天,OpenAI和微軟被曝出正在聯(lián)手打造超算「星際之門」,解決算力難題。
然而,數(shù)據(jù)也是訓(xùn)練下一代強(qiáng)大模型,最重要的一味丹藥。
面對(duì)窮盡互聯(lián)網(wǎng)的數(shù)據(jù)難題,AI初創(chuàng)、互聯(lián)網(wǎng)大廠真的坐不住了。
GPT-5訓(xùn)練,用上了YouTube視頻不論是下一代GPT-5、還是Gemini、Grok等強(qiáng)大系統(tǒng)的開(kāi)發(fā),都需要從大量的海洋數(shù)據(jù)中學(xué)習(xí)。
可以預(yù)見(jiàn)的是,互聯(lián)網(wǎng)中高質(zhì)量公共數(shù)據(jù)已經(jīng)變得非常稀缺。
與此同時(shí),一些數(shù)據(jù)所有者,比如Reddit等機(jī)構(gòu),制定政策阻止AI公司的訪問(wèn)數(shù)據(jù)。
一些高管和研究人員稱,由于對(duì)高質(zhì)量文本數(shù)據(jù)的需求,可能會(huì)在2年內(nèi)超過(guò)供應(yīng),這可能會(huì)減緩人工智能的發(fā)展。
也包括2022年11月,就有MIT等研究人員警告,機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會(huì)在2026年之前耗盡所有「高質(zhì)量語(yǔ)言數(shù)據(jù)」。
論文地址:https://arxiv.or
原文鏈接:訓(xùn)出GPT-5短缺20萬(wàn)億token!OpenAI被曝計(jì)劃建「數(shù)據(jù)市場(chǎng)」
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。