開講預告12月18日14:00,紫光曉通AI高級技術支持工程師尚志遠、群聯電子首席技術官林緯博士,將以《NVIDIA RTX 5880 Ada 性能解析》、《借助NVIDIA RTX 5880 Ada 部署私有化大模型》為主題進行直播講解,歡迎掃名~微軟研究院發布了最強小參數模型——Phi-4。Phi系列模型自今已經發布了5代,Phi-4也延續了之前的小參數模式只有140億。但在GPQA研究生水平、MATH數學基準中,分別達到了56.1和80.4超過了GPT-4o,同時也超過了同類型的開源模型Qwen 2.5 -14B和Llama-3.3-70B。而在美國數學競賽AMC的測試中,Phi-4達到了驚人的91.8分,再次超過了GeminiPro
1.5、GPT-4o、Claude 3.5 Sonnet、Qwen 2.5等知名開閉源模型,甚至整體性能可以與4050億參數的Llama-3.1相媲美。這也就是說,只要使用了高質量數據和創新訓練方法,小參數模型同樣可以戰勝大參數,但在部署、應用和推理方面極大減少了對AI算力和環境的要求。01使用高質量合成數據Phi-4能以如此小的參數獲得巨大性能,使用高質量合成訓練數據是關鍵環節之一。傳統的大模型通常依賴于從網絡抓取或公開數據庫獲取的真實世界文本作為訓練數據,這種方法雖然能夠提供豐富的信息來源,但也容易受到噪聲干擾和偏見影響。Phi-4則使用了種子策劃、多Agent提示、自我修訂工作流、重寫和增強以及指令反轉等多種合成方法,有效解決了傳統無監督數據集的缺點。種子策劃是合成數據生成的起點。Phi-4從多個領域提取高質量的數據種子,為合成數據生成打下堅實基礎,使得能夠創建針對模型訓練目標的練習、討論和推理任務。策劃的種子包括從網頁、書籍和代碼庫中提取的文段和代碼片段,這些內容展示了高復雜性、深度推理和教育價值。為了確保質量,采用了兩階段過濾過程:首先是識別具有強教育潛力的頁面,然后是將選定的頁面分割成段落,對每個段落進行事實和推理內容的評分。此外,多Agent提示允許不同智能體之間進行交互對話,從而創造出更加多樣化且貼近真實應用場景的交流場景;而自我修訂工作流則鼓勵模型參與到自身的編輯過程中,以此提高輸出內容的質量和一致性。通過改變任務描述的方式,指令反轉可以增加模型處理不同類型問題的能力,進一步增強了其靈活性和適應性。總體上,一共生成了50 種不同類型的合成數據集,涵蓋廣泛的主題和技能,總計約 400B未加權的高質量token數據。02創新訓練方法為了確保phi-4能在廣泛的任務類型上表現出色,研究人員使用了一系列針對性創新訓練方法,并根據實際需求調整各類數據的比例。尤其是針對長上下文理解能力的需求,phi-4增加了rope位置編碼的基礎頻率至25萬次,并相應地降低了最大學習率,以更好地適應更長的文本序列。這種做法有效提升了模型對于復雜結構化信息的理解力,使其在面對需要綜合分析多個段落甚至整篇文章的問題時也能游刃有余。phi-4還特別注重了不同類型數據之間的平衡,避免某類數據過多導致其他方面性能下降的情況發生。而在 phi-4 的后訓練過程中,研究團隊采用了兩種形式的 DPO 數據對模型進行了強化訓練。第一種是基于人工標注的 SFT數據,即由專家精心挑選并標記好的問答對;第二種則是自動構建的 DPO 對,這種方法通過搜索重要的轉折點,將原始對話片段拆分成多個選項,并讓模型從中選擇最優解。通過結合這兩種方式,phi-4 不僅學會了如何產生更符合預期的回答,還能夠在不同情境下靈活調整語氣和風格,從而提供更加個性化的交互體驗。此外,phi-4還引入了一些創新性的后訓練方法,以增強其在特定領域內的表現。例如,在 STEM領域問題解答方面,phi-4 利用了一個名為Math-Shepherd 的工具來進行驗證和強化學習。Math-Shepherd 可以自動檢查模型生成的答案是否正確,并且在必要時提供額外指導,幫助模型逐步掌握正確的解題思路。這種方法有效地解決了傳統無監督數據集中常見的邏輯不嚴密等問題,使得 phi-4 在數學競賽類題目上的準確率達到了驚人的80.4%,遠超其他同類產品。此外,針對編程代碼評估任務,Phi-4 也采取了類似的方法,通過對大量開源項目中的代碼片段進行分析和總結,提升了其在該領域的執行效率和準確性。值得一提的是,微軟AI副總裁、phi系列模型的靈魂人物之一Sébastien
Bubeck已經離開了微軟加入了OpenAI。END點擊下方名片即刻關注我們
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
暫無評論...