原標題:50 美元復制 DeepSeek?揭開李飛飛團隊的「省錢」的秘密
文章來源:愛范兒
內容字數:3335字
低成本AI模型訓練的突破與
近期,關于低成本訓練高性能AI模型的新聞引發熱議,特別是“50美元復制DeepSeek R1”的說法一度沖上熱搜。本文將深入探討這一背后的,并分析低成本AI模型訓練的未來發展趨勢。
1. “50美元復制”的
李飛飛團隊的S1-32B模型并非從零開始訓練,而是基于阿里巴巴的Qwen2.5-32b-Instruct模型進行監督微調。所謂的“50美元”成本,指的是在16塊Nvidia H100 GPU上訓練26分鐘的費用,并未包含其他數據、設備以及消融實驗等成本。因此,“50美元復制”的說法存在夸大成分,更準確的描述應該是基于現有開源模型進行低成本的優化和改進。
2. S1-32B模型的創新之處
S1-32B模型并非簡單地微調,它引入了測試時縮放(Test-time Scaling)技術,特別是“預算”方法。通過控制推理時間和算力分配,該模型能夠在多個推理任務上取得優異的成績,甚至在某些方面超過了OpenAI的o1-preview模型。然而,它并沒有超越正式版o1和滿血版DeepSeek-R1。
3. S1-32B模型成功的關鍵因素
S1-32B模型的成功離不開精心打造的s1K數據集,以及Qwen2.5模型的優秀基礎。s1K數據集包含1000個高質量、多樣化且富有挑戰性的問題,極大提高了模型的泛化能力。而Qwen2.5模型的開源特性,允許研究者在其基礎上進行修改和優化,降低了研發門檻。
4. 低成本AI模型訓練的探索并非個例
除了S1-32B模型,伯克利大學潘家怡團隊也成功以低于30美元的成本復現了DeepSeek R1-Zero的關鍵技術,開發出名為TinyZero的模型。這再次證明了基于開源基礎模型進行低成本創新的可行性。
5. 開源模型的巨大作用
阿里巴巴的Qwen系列開源模型在這次中扮演了至關重要的角色。其開源代碼和頂尖性能,為全球研究者提供了寶貴的資源,促進了低成本AI模型訓練的蓬勃發展。Hugging Face的開源大模型榜單也顯示,Qwen模型及其衍生模型在全球范圍內占據主導地位。
6. 總結
雖然“50美元復制DeepSeek R1”的說法存在偏差,但低成本訓練高性能AI模型的探索方向具有重大意義。基于開源基礎模型的創新,降低了AI研究的門檻,為未來AI發展提供了更具包容性和可能性的路徑。這不僅推動了AI技術的進步,也讓更多研究者有機會參與到AI領域的研究中來。
聯系作者
文章來源:愛范兒
作者微信:
作者簡介:關注明日產品的數字潮牌