AIGC動態歡迎閱讀
內容摘要:
機器之心報道
機器之心編輯部訓練數據是用 GPT-4o 生成的?那質量不好說了。我們知道,大模型面臨的三大挑戰是算法、算力和數據。前兩者靠優化升級,后者靠積累。隨著技術的不斷發展,高質量數據已經逐漸成為最大的瓶頸。
在很多新模型上,人們為了提升模型能力,都采用了使用 AI 生成數據來訓練的方式。人們普遍認為,使用合成數據可以顯著提升模型質量。
不過,最新的研究認為,使用 AI 生成的數據并不是什么好辦法,反而可能會讓模型陷入崩潰。
今天發表在學術頂刊《自然》雜志的封面研究認為,如果放任大模型用自動生成的數據訓練自己,AI 可能會自我退化,在短短幾代內將原始內容迭代成無法挽回的胡言亂語。這篇由牛津大學等機構提交的研究,強調了由于自我訓練導致人工智能模型崩潰(Model Collapse)的風險,論證了原始數據源和仔細數據過濾的必要性。論文鏈接:https://www.nature.com/articles/s41586-024-07566-y
哪種模型容易崩潰?
研究認為,當人工智能模型在生成的數據上進行過度訓練時,就會發生不可逆轉的模型崩潰。
「模型崩潰是指由于對合成數據進行不加區分的
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...