Copyleaks,一個專注于檢測文本中的抄襲和AI生成內容的平臺。

原標題:DeepSeek R1與OpenAI模型文風相似度高達74.2%?新研究質疑DeepSeek訓練數據
文章來源:機器之心
內容字數:4879字
DeepSeek 與 OpenAI 風格驚人相似:Copyleaks 研究引發爭議
近日,Copyleaks 平臺發布的一項研究顯示,DeepSeek 生成的文本中有 74.2% 在風格上與 OpenAI 模型驚人相似,引發廣泛關注。這項研究使用了由三個分類器組成的 LLM 檢測集成系統,該系統能夠識別不同 AI 模型生成的文本,即使這些模型試圖模仿其他風格也是如此。
1. Copyleaks 的研究方法
Copyleaks 的研究基于一個由三個不同架構和訓練數據的分類器組成的集成系統。該系統使用來自 OpenAI、Llama、Claude 和 Gemini 模型的 5 萬條英文文本進行訓練,并采用“一致同意制”的投票機制,只有當三個分類器都一致認同時才輸出結果。這種方法旨在提高準確性并降低誤判率,其在測試集上的準確率達到 0.9988,假陽性率僅為 0.0004。
2. 不同模型的風格相似性分析
研究對四個新模型 (phi-4、Grok-1、Mixtral 和 DeepSeek) 進行了測試。結果顯示:phi-4 和 Grok-1 模型與訓練集中的四大模型風格差異顯著;Mixtral 模型有 26% 的文本被識別為 OpenAI 生成,8.8% 被識別為 Llama 生成;而 DeepSeek 模型則有高達 74.2% 的文本被識別為 OpenAI 生成。
3. DeepSeek 與 OpenAI 相似性引發質疑
DeepSeek 與 OpenAI 風格的高度相似性引發了對其訓練過程的質疑。Copyleaks 數據科學主管 Shai Nisan 認為,雖然這不能直接證明 DeepSeek 是 OpenAI 的衍生產品,但確實令人對其開發過程產生疑問,暗示其可能使用了 OpenAI 模型的輸出作為訓練數據。
4. 其他可能解釋及爭議
除了訓練數據可能存在重疊外,文章也指出,AI 模型隨著時間推移風格趨同的可能性,以及 Copyleaks 檢測系統的準確性和客觀性也值得探討。盡管質疑聲不斷,DeepSeek 的應用卻持續增長,并通過開源核心技術回應質疑。
5. 研究結果的可靠性
Copyleaks 的研究結果雖然引發了廣泛討論,但其結論的可靠性仍有待進一步考量。 高準確率的檢測系統和統計方法固然令人印象深刻,但風格相似性并不一定意味著抄襲或衍生關系。 AI 模型的風格趨同、訓練數據的重疊以及檢測方法本身的局限性,都需要更深入的分析和驗證。
6. 結論
Copyleaks 的研究為 AI 模型的風格識別提供了新的視角,也引發了對 AI 模型訓練數據和開發過程的更深層次思考。 DeepSeek 與 OpenAI 的高度風格相似性值得關注,但需避免過度解讀,需要更多研究來證實其背后的原因并評估其影響。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺

粵公網安備 44011502001135號