復雜問題的智能探索:阿里多模態(tài)檢索智能體的創(chuàng)新思維之旅
可適配不同模型
原標題:阿里多模態(tài)檢索智能體,自帶o1式思考過程!復雜問題逐步拆解,動態(tài)調(diào)整下一步檢索策略
文章來源:量子位
內(nèi)容字數(shù):4181字
OmniSearch:自適應規(guī)劃的多模態(tài)檢索智能體
近日,阿里通義實驗室發(fā)布了OmniSearch,這是一種新的多模態(tài)檢索增強生成(mRAG)方法,旨在模擬人類問題解決的思維方式。OmniSearch能夠?qū)碗s問題逐步拆解,并根據(jù)當前的檢索結(jié)果和問題情境動態(tài)調(diào)整檢索策略,從而提升檢索效率和生成內(nèi)容的準確性。
1. OmniSearch的核心架構(gòu)
OmniSearch的設計克服了傳統(tǒng)mRAG方法的局限,具有以下幾個核心組件:
- 規(guī)劃智能體(Planning Agent):負責解析原始問題,并制定逐步的檢索策略。
- 檢索器(Retriever):執(zhí)行圖像、文本及跨模態(tài)的檢索任務。
- 子問題求解器(Sub-question Solver):總結(jié)和解答檢索到的信息,具備高度可擴展性。
- 迭代推理與檢索(Iterative Reasoning and Retrieval):通過遞歸檢索和推理逐步接近問題的最終答案。
- 反饋循環(huán)機制(Feedback Loop):在每一步檢索和推理后反思檢索結(jié)果,以提高檢索的精確度。
2. Dyn-VQA數(shù)據(jù)集的構(gòu)建與實驗評估
為評估OmniSearch的性能,研究團隊構(gòu)建了新數(shù)據(jù)集Dyn-VQA,涵蓋1452個動態(tài)問題,主要分為以下三類:
- 答案快速變化的問題:如明星電影票房等,需要動態(tài)再檢索能力。
- 多模態(tài)知識需求的問題:需結(jié)合圖像和文本信息來獲取答案。
- 多跳問題:需要多個推理步驟以得出答案。
實驗結(jié)果顯示,OmniSearch在這三類問題上均表現(xiàn)優(yōu)異,特別是在處理需要多步推理和快速變化答案的問題時,準確率顯著高于現(xiàn)有的mRAG方法。
3. 性能優(yōu)勢與模塊化能力
在多個基準數(shù)據(jù)集上,OmniSearch達到了接近人類的表現(xiàn)。例如,在VQAv2數(shù)據(jù)集中,其準確率達到了70.34,超越了傳統(tǒng)mRAG方法。OmniSearch的模塊化設計允許靈活集成不同規(guī)模的多模態(tài)大語言模型(MLLM),為復雜問題提供解決方案。
整體而言,OmniSearch通過動態(tài)檢索規(guī)劃框架,突破了傳統(tǒng)mRAG的局限性,展現(xiàn)出強大的多模態(tài)檢索能力和靈活的模型集成特性,為未來的智能檢索系統(tǒng)提供了新的方向。
4. 進一步閱讀與資源
欲了解更多信息,可以訪問以下鏈接:
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破