利用模型微調后表征不變性打造
原標題:專治大模型“套殼”!上海AI實驗室等給LLM做“指紋識別”,模型剪枝、合并等也無所遁形
文章來源:量子位
內容字數:5065字
量子位投稿摘要:REEF方法有效檢測大模型“套殼”行為
近日,來自上海AI Lab邵婧課題組的學者們提出了一種名為REEF(Representation Encoding Fingerprints)的方法,旨在有效檢測大語言模型(LLM)的未經授權的后續開發行為,通常被稱為“套殼”行為。該方法在不影響模型性能的情況下,通過表征編碼實現對源模型的精準識別,為大模型開發團隊應對侵權問題提供了新的解決方案。
1. REEF的關鍵思想
REEF依賴于模型在微調后的表征“不變性”,通過計算源模型與被測模型的CKA(中心核對齊)相似性來判斷二者的關系。CKA是一種用于測量兩組隨機變量之間性的相似性指數,能夠確保在不同的排列和縮放變換下保持魯棒性。這一特點使得REEF能夠有效識別經過剪枝、合并等處理后的衍生模型。
2. 實驗驗證與魯棒性
研究者將REEF應用于多種通過微調、剪枝、合并等手段衍生出的模型,結果顯示REEF在這些情況下依然能夠準確識別源模型,驗證了其優越的魯棒性。具體而言,REEF在使用多達700B tokens進行微調時仍能保持高達0.9962的相似度,對高達90%的剪枝比率也表現出良好的識別準確性。
3. 跨數據集的有效性
REEF的有效性還體現在其對不同數據集的適應性。實驗表明,REEF在多個數據集上均能穩定識別源模型,并且在樣本量較少時也能實現可靠的指紋識別。這使得REEF不僅在實際應用中具備高效性,也為模型的知識產權保護提供了有力支持。
4. 結論與展望
REEF方法為大模型的開發與知識產權管理提供了一種新標準,推動了更透明與合作的AI社區。作者們相信,這一研究成果將促進AI模型的保護與安全可信性的發展。
相關論文鏈接:[REEF論文](https://arxiv.org/abs/2410.14273),項目主頁:[REEF項目](https://github.com/tmylla/REEF)。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破