“AI黑箱:上海實(shí)驗(yàn)室揭示大模型‘指紋’與剪枝合并的秘密!”
利用模型微調(diào)后表征不變性打造
原標(biāo)題:專治大模型“套殼”!上海AI實(shí)驗(yàn)室等給LLM做“指紋識(shí)別”,模型剪枝、合并等也無所遁形
文章來源:量子位
內(nèi)容字?jǐn)?shù):5065字
量子位投稿摘要:REEF方法有效檢測大模型“套殼”行為
近日,來自上海AI Lab邵婧課題組的學(xué)者們提出了一種名為REEF(Representation Encoding Fingerprints)的方法,旨在有效檢測大語言模型(LLM)的未經(jīng)授權(quán)的后續(xù)開發(fā)行為,通常被稱為“套殼”行為。該方法在不影響模型性能的情況下,通過表征編碼實(shí)現(xiàn)對(duì)源模型的精準(zhǔn)識(shí)別,為大模型開發(fā)團(tuán)隊(duì)?wèi)?yīng)對(duì)侵權(quán)問題提供了新的解決方案。
1. REEF的關(guān)鍵思想
REEF依賴于模型在微調(diào)后的表征“不變性”,通過計(jì)算源模型與被測模型的CKA(中心核對(duì)齊)相似性來判斷二者的關(guān)系。CKA是一種用于測量兩組隨機(jī)變量之間性的相似性指數(shù),能夠確保在不同的排列和縮放變換下保持魯棒性。這一特點(diǎn)使得REEF能夠有效識(shí)別經(jīng)過剪枝、合并等處理后的衍生模型。
2. 實(shí)驗(yàn)驗(yàn)證與魯棒性
研究者將REEF應(yīng)用于多種通過微調(diào)、剪枝、合并等手段衍生出的模型,結(jié)果顯示REEF在這些情況下依然能夠準(zhǔn)確識(shí)別源模型,驗(yàn)證了其優(yōu)越的魯棒性。具體而言,REEF在使用多達(dá)700B tokens進(jìn)行微調(diào)時(shí)仍能保持高達(dá)0.9962的相似度,對(duì)高達(dá)90%的剪枝比率也表現(xiàn)出良好的識(shí)別準(zhǔn)確性。
3. 跨數(shù)據(jù)集的有效性
REEF的有效性還體現(xiàn)在其對(duì)不同數(shù)據(jù)集的適應(yīng)性。實(shí)驗(yàn)表明,REEF在多個(gè)數(shù)據(jù)集上均能穩(wěn)定識(shí)別源模型,并且在樣本量較少時(shí)也能實(shí)現(xiàn)可靠的指紋識(shí)別。這使得REEF不僅在實(shí)際應(yīng)用中具備高效性,也為模型的知識(shí)產(chǎn)權(quán)保護(hù)提供了有力支持。
4. 結(jié)論與展望
REEF方法為大模型的開發(fā)與知識(shí)產(chǎn)權(quán)管理提供了一種新標(biāo)準(zhǔn),推動(dòng)了更透明與合作的AI社區(qū)。作者們相信,這一研究成果將促進(jìn)AI模型的保護(hù)與安全可信性的發(fā)展。
相關(guān)論文鏈接:[REEF論文](https://arxiv.org/abs/2410.14273),項(xiàng)目主頁:[REEF項(xiàng)目](https://github.com/tmylla/REEF)。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破