原標題:Ilya錯了,預訓練沒結束!LeCun等反擊,「小模型時代」讓奧特曼預言成真
文章來源:新智元
內容字數:7410字
預訓練的未來:Ilya的引發爭議
最近,在NeurIPS 2024大會上,前OpenAI首席科學家Ilya發表了“預訓練結束了”的,迅速引發了業界的廣泛關注與討論。他認為,數據的稀缺性使得大規模預訓練難以為繼,然而這一觀點遭到了谷歌和Meta等公司的大佬們的反對,他們認為預訓練并未結束,反而還有更大的潛力待挖掘。
數據資源的潛力
Ilya的觀點引發了對數據資源的重新審視。前Meta團隊高級總監Dhruv Batra指出,人類的數據并未用盡,尤其是視頻等非文本數據仍有巨大的潛力。當前網絡上可用的文本數據只是冰山一角,音頻、視頻和圖像等數據同樣可以用于模型的預訓練。
Scaling Law的變化
近年來,模型的規模和性能提升的方式發生了改變。Epoch AI的研究表明,從GPT-1到GPT-4,盡管模型規模不斷增大,但增幅逐漸減小,甚至在2023年出現了規模縮小的趨勢。這一現象的原因有多個,包括對推理成本的關注、蒸餾技術的應用以及Scaling Law的轉變。
模型小型化的原因
1. **AI需求增加**:隨著AI產品需求的激增,服務商面臨的推理請求遠超預期,促使模型在保持性能的同時減小規模。
2. **蒸餾技術**:通過讓小模型模仿大模型的性能,蒸餾技術使得小模型表現得更強大。
3. **Scaling Law轉變**:從Kaplan到Chinchilla的轉變強調了數據規模的重要性,模型不必一味增大。
4. **推理效率提升**:優化推理過程使得模型在處理復雜任務時能更高效運行,從而推動了模型縮小。
未來展望
雖然當前的趨勢表明模型正在向小型化發展,但并不意味著未來的模型規模會一直減小。硬件的進步可能會促使更大的模型變得更具優勢,尤其是在處理復雜任務時。因此,未來的模型規模可能會恢復到甚至超過GPT-4的水平。
總的來看,當前AI發展的分水嶺在于如何有效利用數據和優化模型,而Ilya的則為這一討論提供了新的視角。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。