推理模型規劃任務成功率從5%到95%，DeepMind遺傳算法新研究火了

成本也降低了，且無需微調

原標題：推理模型規劃任務成功率從5%到95%，DeepMind 遺傳算法新研究火了
文章來源：量子位
內容字數：5261字

DeepMind的Mind Evolution：升級LLM推理能力的進化算法

DeepMind最新研究提出了一種名為“Mind Evolution”的進化搜索策略，顯著提升了大型語言模型（LLMs）在規劃和推理任務中的性能。該方法結合了遺傳算法和LLMs的自然語言能力，無需微調即可實現顯著效果，引發了Reddit和?平臺的廣泛討論。

1. Mind Evolution的核心思想

Mind Evolution旨在優化LLMs的推理時擴展（Inference-time scaling）。它借鑒了先前研究中自一致性、基于反饋的順序修正以及由評估器引導的搜索等方法，并在此基礎上引入了進化搜索的思想。通過迭代生成、評估和改進解決方案，Mind Evolution能夠在規劃和推理任務中找到更優的答案。

2. 工作機制：遺傳算法與LLM的結合

Mind Evolution主要由兩個組件構成：搜索算法和遺傳算法。搜索算法幫助LLM找到最佳推理路徑，而遺傳算法則通過迭代優化候選解決方案，模擬生物進化過程中的選擇、交叉和變異，最終得到更優的解。其流程包括：樣本解決方案生成、評估、改進（選擇、交叉、變異）和終止條件。

值得注意的是，Mind Evolution巧妙地利用“適應度函數”解決了傳統方法中需要將問題形式化的問題。適應度函數直接處理自然語言問題，并提供文本反饋，從而簡化了流程，降低了對領域專業知識的需求。

3. 實驗結果：顯著優于基線方法

實驗結果顯示，Mind Evolution在旅行規劃和會議規劃等任務中顯著優于其他基線方法，例如1-pass、Best-of-N和Sequential Revisions+。尤其是在任務復雜度增加時，Mind Evolution的優勢更加明顯。例如，在Gemini 1.5 Flash模型上，Mind Evolution將旅行規劃任務的成功率從5.6%提升至95.6%，會議規劃任務的成功率從20.8%提升至85.0%。同時，它還比Sequential Revisions+消耗更少的tokens。

此外，Mind Evolution還在一項新的創意寫作任務（StegPoet）中取得了成功，證明其在更復雜、更具創造性的自然語言規劃任務中的適用性。

4. 總結：高效且經濟的LLM推理升級

Mind Evolution通過結合廣泛搜索和深度搜索，有效提升了LLMs在規劃和推理方面的能力。它無需對模型進行微調，且成本更低，為提升LLM的推理能力提供了一種高效且經濟的方法。這項研究被網友譽為“給大語言模型升級大腦而不刷爆信用卡”。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # DeepMind # 成功率提升 # 推理模型 # 模型規劃 # 遺傳算法

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

推理模型規劃任務成功率從5%到95%，DeepMind遺傳算法新研究火了

成本也降低了，且無需微調

DeepMind的Mind Evolution：升級LLM推理能力的進化算法

1. Mind Evolution的核心思想

2. 工作機制：遺傳算法與LLM的結合

3. 實驗結果：顯著優于基線方法

4. 總結：高效且經濟的LLM推理升級

聯系作者

字節啟動AGI長期研究計劃，代號Seed Edge

萬字長文｜大模型推理之路

相關文章

暫無評論

ChatGPT

玩虛擬模特？

推理模型規劃任務成功率從5%到95%，DeepMind遺傳算法新研究火了

成本也降低了，且無需微調

DeepMind的Mind Evolution：升級LLM推理能力的進化算法

1. Mind Evolution的核心思想

2. 工作機制：遺傳算法與LLM的結合

3. 實驗結果：顯著優于基線方法

4. 總結：高效且經濟的LLM推理升級

聯系作者

字節啟動AGI長期研究計劃，代號Seed Edge

萬字長文｜大模型推理之路

相關文章

暫無評論

ChatGPT

玩虛擬模特？

玩虛擬模特？