新學習推理方法:集體蒙特卡羅樹搜索(Collective Monte Carlo Tree Search, CoMCTS)
原標題:將集體學習引入樹搜索,新方法CoMCTS實現o1-like的推理與反思
文章來源:機器之心
內容字數:6645字
Mulberry: 賦能多模態大語言模型的逐步推理能力
本文介紹了名為Mulberry的新型多模態大語言模型(MLLM),它通過一種名為集體蒙特卡羅樹搜索(CoMCTS)的新方法,顯著提升了MLLM在復雜推理任務中的性能?,F有MLLM在簡單任務上表現出色,但在復雜推理方面仍存在不足,本文旨在解決這一問題。
1. 挑戰與CoMCTS的提出
傳統樹搜索方法如MCTS應用于MLLM推理路徑搜索效果不佳,主要原因在于搜索有效性和效率兩方面:傳統的MCTS方法依賴于自我引導,而當前MLLM的訓練缺乏明確的中間推理步驟,導致搜索陷入低質量節點;此外,傳統MCTS效率低下,每次迭代僅擴展一個節點,計算成本高昂。為解決這些問題,本文提出了CoMCTS。CoMCTS的核心思想是將集體學習引入樹搜索,通過多個MLLM的協同工作,高效地搜索有效的推理路徑。
2. CoMCTS算法詳解
CoMCTS算法包含四個關鍵操作:擴展(Expansion)、模擬與錯誤定位(Simulation and Error Position)、反向傳播(Backpropagation)和選擇(Selection)。
- 擴展:利用多個MLLM協同擴展多個候選推理路徑,避免單一模型陷入低質量節點。
- 模擬與錯誤定位:多個模型共同模擬候選節點的值,過濾掉低分節點,提高效率。
- 反向傳播:自底向上更新推理樹中節點的統計信息。
- 選擇:根據上置信界限(UCB)值選擇下一個搜索節點。
CoMCTS還通過整合正負推理節點構建反思性推理路徑,進一步提升模型的推理能力。
3. Mulberry模型及實驗結果
利用CoMCTS構建了Mulberry-260K數據集,并訓練了一系列Mulberry模型。實驗結果表明,Mulberry模型在多個基準測試中顯著優于現有開源MLLM,并在與閉源模型的比較中展現出競爭力。消融實驗也驗證了CoMCTS各個組件的有效性,特別是集體學習機制和反思學習機制的貢獻。
4. 主要貢獻與結論
本文的主要貢獻在于提出了CoMCTS算法,該算法通過集體學習和反思學習機制,有效提升了MLLM的推理能力。Mulberry模型的成功證明了CoMCTS方法的有效性和實用性,為未來MLLM的研究提供了新的方向。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺