全球首個跨洲協(xié)作的大模型震撼發(fā)布,全流程開源引領AI新紀元!
30 位貢獻者,112 臺 H100 GPU,用時 42 天。

原標題:美歐亞三洲開發(fā)者聯(lián)手,全球首個組團訓練的大模型來了,全流程開源
文章來源:機器之心
內(nèi)容字數(shù):5888字
去中心化訓練的突破:Prime Intellect發(fā)布10B模型
2023年11月22日,Prime Intellect宣布成功訓練出一個10B參數(shù)的AI模型——INTELLECT-1,并通過去中心化方式開源了相關技術和數(shù)據(jù)。這一成就被認為是歷史上首個以去中心化形式訓練的大型模型,標志著大型模型訓練的范式發(fā)生了重要改變。
1. 關鍵技術與訓練過程
INTELLECT-1基于Llama-3架構,在經(jīng)過精心篩選的1萬億token數(shù)據(jù)集上訓練而成,訓練過程持續(xù)了42天,使用了112臺H100 GPU,涉及全球30位貢獻者。該團隊在訓練中實現(xiàn)了83%的總體計算利用率,尤其在美國節(jié)點上更是高達96%。
2. 訓練框架與方法
Prime Intellect采用了名為“Prime”的去中心化訓練框架,該框架是基于其開發(fā)的OpenDiLoCo技術。Prime框架支持容錯訓練,能夠動態(tài)管理計算資源,優(yōu)化全球分布式GPU網(wǎng)絡中的通信和路由。通過偽梯度的int8量化與優(yōu)化器同步,團隊成功將通信帶寬要求降低了多達2000倍。
3. 模型性能與能力
盡管INTELLECT-1在某些測試中表現(xiàn)出色,但在漢語能力和幻覺現(xiàn)象方面仍存在不足。AI社區(qū)對該模型的整體表現(xiàn)給予了積極評價,認為其在大規(guī)模去中心化訓練方面展現(xiàn)出巨大的潛力。
4. 未來計劃與目標
Prime Intellect的長期目標是實現(xiàn)開源AGI。團隊計劃擴大全球計算網(wǎng)絡,激勵社區(qū)參與,并進一步優(yōu)化去中心化訓練架構,以支持更大的模型。這一系列努力旨在防止AI能力被少數(shù)組織壟斷,推動更開放和協(xié)作的AI發(fā)展。
總之,INTELLECT-1的發(fā)布不僅是技術上的突破,更是去中心化訓練方法的一次成功嘗試,展現(xiàn)了未來AI發(fā)展的新方向。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺

粵公網(wǎng)安備 44011502001135號