20K合成數據就能讓大模型能力飆升！還能實現模型自我迭代，上海AI Lab數據合成新范式

基于世界知識樹打造高質量對話數據

原標題：20K合成數據就能讓大模型能力飆升！還能實現模型自我迭代，上海AI Lab數據合成新范式
文章來源：量子位
內容字數：3951字

上海AI Lab提出Condor：基于合成數據提升LLM對話能力

本文總結了上海AI Lab研究團隊提出的Condor數據合成引擎，該引擎利用合成數據顯著提升了大型語言模型（LLM）Qwen的主觀對話能力。Condor通過“世界知識樹”和“自我反思”機制，高效生成高質量的監督微調（SFT）數據，并展現出模型性能與數據量正相關的特性，尤其在20K數據量級下取得了顯著效果，之后增益趨于平緩。此項研究為LLM數據合成提供了新的范式。

1. Condor數據合成引擎：世界知識樹與自我反思

Condor數據合成引擎包含兩個階段：Condor Void和Condor Refine。它巧妙地利用單一LLM完成問題合成、回復合成、回復評價和回復改進等多個角色。核心機制在于：

世界知識樹：Condor通過給定關鍵詞，讓模型遞歸生成子關鍵詞，形成知識樹。每個節點作為Tag，用于指導后續數據生成，確保指令的多樣性和知識覆蓋范圍。
任務多樣性和難度多樣性：Condor設計不同問題模板，生成不同類型（日常、角色扮演、創意創作等）和不同難度的問題，提升合成指令的多樣性。
自我反思：Condor Refine Pipeline引入自我反思策略，模型對初始回復進行評價和修改，迭代優化回復質量，最終生成高質量SFT數據。

2. 實驗結果：顯著提升主觀對話能力

研究人員使用Qwen2.5-72B-Instruct模型進行數據合成，并用Qwen2.5-7B模型進行SFT訓練。實驗結果表明：使用Condor合成數據訓練的模型在主觀對話能力上與Qwen2.5-7B-Instruct具有競爭力，并在主流客觀評測基準上保持了性能，顯著優于其他基線方法。更重要的是，實驗驗證了模型性能隨著合成數據量增加而提升，在5K到20K數據量區間提升顯著，之后增益放緩。

3. 模型自我迭代與性能分析

研究團隊還驗證了Condor合成數據在模型自我迭代中的作用。使用Condor生成的數據訓練7B和72B的基模型，均實現了自我迭代，性能進一步提升。通過對主觀評測集按能力維度拆解，發現Condor在Creation、QA和Chat維度上的增益尤為顯著。對比分析顯示，Condor合成的數據與其他方法相比，能夠實現更廣泛的知識覆蓋，并提升模型回復的擬人化程度和細節。

4. 結論與展望

Condor數據合成引擎為LLM的訓練提供了高效、高質量的數據生成方案，成功提升了模型的主觀對話能力。然而，高質量推理數據和多輪對話數據的有效合成策略、真實數據和合成數據的協作配比機制，以及如何突破合成數據的Scaling Law等問題，仍有待進一步研究。Condor的合成數據和訓練后的模型已開源，方便社區用戶進行體驗和探索。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # 20K合成數據 # 上海AILab # 大模型能力提升 # 數據合成 # 模型自我迭代

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

20K合成數據就能讓大模型能力飆升！還能實現模型自我迭代，上海AI Lab數據合成新范式

基于世界知識樹打造高質量對話數據

上海AI Lab提出Condor：基于合成數據提升LLM對話能力

1. Condor數據合成引擎：世界知識樹與自我反思

2. 實驗結果：顯著提升主觀對話能力

3. 模型自我迭代與性能分析

4. 結論與展望

聯系作者

AAAI 2025丨2080Ti 也能 4K 圖像摳圖！美圖&北交大提出超高分辨率自然圖像摳圖算法 MEMatte

人工智能的錯誤與人類的錯誤有很大不同

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

20K合成數據就能讓大模型能力飆升！還能實現模型自我迭代，上海AI Lab數據合成新范式

基于世界知識樹打造高質量對話數據

上海AI Lab提出Condor：基于合成數據提升LLM對話能力

1. Condor數據合成引擎：世界知識樹與自我反思

2. 實驗結果：顯著提升主觀對話能力

3. 模型自我迭代與性能分析

4. 結論與展望

聯系作者

AAAI 2025丨2080Ti 也能 4K 圖像摳圖 ！美圖&北交大提出超高分辨率自然圖像摳圖算法 MEMatte

人工智能的錯誤與人類的錯誤有很大不同

相關文章

暫無評論

ChatGPT

玩虛擬模特？

AAAI 2025丨2080Ti 也能 4K 圖像摳圖！美圖&北交大提出超高分辨率自然圖像摳圖算法 MEMatte