微軟出招！新模型數(shù)學(xué)超GPT-4o編程勝Llama3.3，訓(xùn)練新范式引熱議：midtraining

克雷西發(fā)自凹非寺量子位 | 公眾號 QbitAIOpenAI谷歌天天刷流量，微軟也坐不住了，推出最新小模型Phi-4。參數(shù)量僅14B，MMLU性能就和Llama 3.3/ Qwen2.5等70B級別大模型坐一桌。數(shù)學(xué)能力上，Phi-4在美國數(shù)學(xué)競賽AMC 10/12上超過了GPT-4o等一眾大模型，分?jǐn)?shù)沖上90。編程能力也是開源模型一流，超過了70B的Llama 3.3和72B的Qwen 2.5。更引起熱議的是，微軟在技術(shù)報(bào)告中還提出了一個(gè)新的訓(xùn)練范式——midtraining。這一舉動讓Phi-4擁有了更強(qiáng)的長文本處理能力，窗口長度達(dá)到16K后，召回率依然保持在99%。小模型挑戰(zhàn)復(fù)雜推理在常見基準(zhǔn)測試中，Phi-4取得了優(yōu)異的文本處理和復(fù)雜推理水平：在MMLU上，Phi-4以84.8%的準(zhǔn)確率超過了GPT-4o-mini的81.8%和Llama-3.3的86.3%；在研究生水平STEM問答GPQA上，Phi-4準(zhǔn)確率達(dá)到56.1%，高于同尺寸模型Qwen-2.5的42.9%，甚至超過了GPT-4o的50.6%；在數(shù)學(xué)測試集MATH上，Phi-4以80.4%的準(zhǔn)確率超過GPT-4o-mini的73%，并接近GPT-4o的74.6%；編程能力方面，Phi-4在HumanEval上以82.6%超過了其他開源模型，以及GPT-4o-mini。在難度稍高的MMLU和HumanEval+上，Phi-4的表現(xiàn)也超過了其他開源模型；在ArenaHard、LiveBench和IFEval上則表現(xiàn)欠佳。另外，微軟還用內(nèi)部的基準(zhǔn)PhiBench對模型能力進(jìn)行了更全面的評估，結(jié)果Phi-4取得了56.2%的綜合得分，展現(xiàn)出在推理、知識、編程等方面的全面能力，但相比于Qwen 2.5-72B等模型，還是暴露了有待提高之處。在Phi-4的宣傳頁中，微軟還展示了其在一個(gè)具體的數(shù)學(xué)推理題目上的表現(xiàn)。Phi-4非常有條理地考慮了各種可能出現(xiàn)的情況，并計(jì)算出了正確答案。除了這些常規(guī)能力，微軟團(tuán)隊(duì)還專門在長文本上測試了Phi-4的表現(xiàn)。在8K和16K兩種窗口長度中，研究團(tuán)隊(duì)利用HELMET基準(zhǔn)評估了Pho-4和其他模型在RAG、QA問答、長文本摘要等任務(wù)上的水平。結(jié)果，Phi-4在多個(gè)任務(wù)上與同尺寸的Qwen 2.5-14B相當(dāng)，部分指標(biāo)還可與70B的Llama 3.3一決高下。不過，Phi-4在某些任務(wù)（如RAG和文檔排序）上，仍有進(jìn)一步提升的空間。模型midtraining專攻長文本不同于一般大模型的預(yù)訓(xùn)練+后訓(xùn)練的兩階段模式，微軟在兩個(gè)階段中間新加入了一個(gè)midtraining階段。在10萬億tokens規(guī)模的預(yù)訓(xùn)練完成后，Phi-4可以處理4k長度的上下文窗口，而midtraining的目的是在此基礎(chǔ)上進(jìn)一步將窗口長度提升到16k。研究團(tuán)隊(duì)發(fā)現(xiàn)，天然的長上下文數(shù)據(jù)（如完整的學(xué)術(shù)論文）比人工拼接短樣本更有利于訓(xùn)練長上下文能力。因此，團(tuán)隊(duì)從學(xué)術(shù)文章、書籍、代碼庫等高質(zhì)量非合成文本中篩選出長度大于8K tokens的樣本作為訓(xùn)練集，并且對長度超過16K tokens的樣本進(jìn)行加權(quán)，以匹配目標(biāo)長度。為進(jìn)一步豐富長上下文訓(xùn)練數(shù)據(jù)，研究團(tuán)隊(duì)專門生成了滿足大于4K長度要求的新合成數(shù)據(jù)，與真實(shí)長文本數(shù)據(jù)共同組成了midtraining階段的數(shù)據(jù)集。最終，midtraining階段的數(shù)據(jù)包含30%新引入的長文本數(shù)據(jù)（篩選+合成）和70%預(yù)訓(xùn)練階段的歷史數(shù)據(jù)，規(guī)模為2500億tokens。同時(shí)，為了適應(yīng)16K的長序列訓(xùn)練，研究團(tuán)隊(duì)將rope位置編碼的基頻從預(yù)訓(xùn)練階段的2K擴(kuò)大到250K；同時(shí)，為保證訓(xùn)練穩(wěn)定性，團(tuán)隊(duì)將學(xué)習(xí)率降低為預(yù)訓(xùn)練階段的十分之一。最終，Phi-4在HELMET等長文本基準(zhǔn)測試中表現(xiàn)出色，證明了midtraining階段的有效性。除此之外，在后訓(xùn)練階段，研究團(tuán)隊(duì)還提出了一種新穎的對比學(xué)習(xí)方法——樞軸tokens搜索（PTS）。通過識別對模型輸出影響最大的關(guān)鍵tokens，并圍繞它們構(gòu)造正負(fù)樣本對，PTS可以生成高信噪比的對比學(xué)習(xí)數(shù)據(jù)，顯著提升訓(xùn)練效率和效果。除了PTS生成的對比學(xué)習(xí)數(shù)據(jù)，研究團(tuán)隊(duì)還引入了人類反饋對比學(xué)習(xí)（Human Feedback DPO）。他們招募了大量人員對模型輸出進(jìn)行評判，并據(jù)此構(gòu)造優(yōu)質(zhì)的正負(fù)樣本對，使得模型更加貼近人類偏好。One More Thing不過midtraining并不是微軟首次提出，早在7月份，OpenAI就已經(jīng)開始為倫敦的midtraining團(tuán)隊(duì)招人了。論文地址：https://arxiv.org/abs/2412.08905—完—點(diǎn)這里?關(guān)注我，記得標(biāo)星哦～一鍵三連「分享」、「點(diǎn)贊」和「在看」科技前沿進(jìn)展日日相見 ~

閱讀原文