原來,這些頂級(jí)大模型都是蒸餾的
?但 Claude、豆包、Gemini 除外。

原標(biāo)題:原來,這些頂級(jí)大模型都是蒸餾的
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5813字
機(jī)器之心報(bào)道:LLM蒸餾程度量化研究揭示模型同質(zhì)化風(fēng)險(xiǎn)
近日,中國科學(xué)院深圳先進(jìn)技術(shù)研究院、北大、零一萬物等機(jī)構(gòu)的研究者發(fā)表論文,對(duì)多個(gè)知名閉源和開源LLM的蒸餾程度進(jìn)行了量化評(píng)估,發(fā)現(xiàn)除了Claude、豆包和Gemini之外,許多模型都存在高程度蒸餾現(xiàn)象,引發(fā)了對(duì)模型同質(zhì)化和魯棒性下降的擔(dān)憂。
1. 研究背景與意義
隨著模型蒸餾技術(shù)的興起,越來越多的LLM利用蒸餾方法提升小模型性能,這在降低成本的同時(shí),也帶來了一些問題。一些頂尖AI公司可能已經(jīng)構(gòu)建了更強(qiáng)大的模型,但由于成本等原因,只將其用于內(nèi)部,并通過蒸餾技術(shù)改進(jìn)小模型,最終通過這些小模型來盈利。此種做法雖然有效,但也可能導(dǎo)致模型同質(zhì)化,降低模型的多樣性和處理復(fù)雜任務(wù)的能力。因此,對(duì)LLM蒸餾程度的量化研究至關(guān)重要。
2. 研究方法
研究者提出了兩種方法來量化LLM的蒸餾程度:
- 響應(yīng)相似度評(píng)估(RSE): 通過比較待評(píng)估模型與參考模型(GPT)的輸出相似度來衡量模型的同質(zhì)化程度,從響應(yīng)風(fēng)格、邏輯結(jié)構(gòu)和內(nèi)容細(xì)節(jié)三個(gè)方面進(jìn)行評(píng)估。
- 身份一致性評(píng)估(ICE): 利用GPTFuzz越獄框架,通過構(gòu)造迭代提示來繞過LLM的自我認(rèn)知,評(píng)估模型在感知和表示身份相關(guān)信息方面的差異。該方法通過檢測模型在身份信息上與訓(xùn)練數(shù)據(jù)源LLM(例如GPT4o-0806)是否一致來判斷蒸餾程度。
3. 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明:
- ICE結(jié)果顯示,GLM-4-Plus、Qwen-Max和Deepseek-V3的可疑響應(yīng)數(shù)量最多,表明其蒸餾程度較高;Claude-3.5-Sonnet和Doubao-Pro-32k則幾乎沒有可疑響應(yīng)。
- RSE結(jié)果顯示,GPT系列模型響應(yīng)相似度最高,而Llama3.1-70B-Instruct和Doubao-Pro-32k相似度較低;DeepSeek-V3和Qwen-Max-0919則與GPT4o-0806相似度較高。
- 閉源模型Qwen-Max-0919比開源Qwen 2.5系列具有更高的蒸餾程度。
- 基礎(chǔ)LLM通常比經(jīng)過監(jiān)督微調(diào)的LLM具有更高程度的蒸餾。
4. 結(jié)論與展望
研究發(fā)現(xiàn),除了Claude、豆包和Gemini之外,許多LLM都存在高程度蒸餾現(xiàn)象。過度蒸餾可能導(dǎo)致模型同質(zhì)化,降低模型多樣性和魯棒性。研究者希望通過提出的方法,系統(tǒng)地量化蒸餾過程及其影響,提高LLM數(shù)據(jù)蒸餾的透明度。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)