RAG,可以說是大模型時代最成功的落地模式之一,通過檢索-生成的方式,極大的拓展了大模型的應用邊界, 但是,RAG 在落地實踐上卻沒有那么簡單。相信做過 RAG 系統的小伙伴都碰到過如下的問題:什么場景或問題下需要檢索?1+2=?的計算題好像不需要,但為什么 1+2=3 好像就需要。檢索到的信息是否有用?是否正確?檢索到的信息怎么用?直接與用戶的問題拼接還是需要進行信息壓縮后拼接?以什么邏輯進行召回?召回信息是否需要排序?……這些問題沒有“放之四海皆準”的答案,在不同的場景、數據下,解決方案各不相同。從 23 年 RAG 火爆以來,各類 RAG 框架或解決方案沒有上百也有幾十個了,AnythingLLM、RAGFlow、Ollama 等,每一個都能搭建出一個完整基于 RAG 的知識庫,但是通用 ≠ 好用。每一個場景、甚至每一個人的數據都是獨特的,這對于 RAG 系統的效果帶來了巨大的挑戰。但這也帶來了 RAG 領域研究的百花齊放。今天,和各位小伙伴,一起看下最近的幾篇關于 RAG 的文章,了解下學術界在 RAG 上探索。簡短總結版可以看出以下幾個趨勢:專業化趨勢:許多 RAG 變體都針對特定領域進行了優化,如醫療、金融、材料科學等多模態融合:越來越多的 RAG 技術開始處理多模態數據,如視頻、圖像、文本的結合安全性考慮:隨著 RAG 技術的普及,安全性問題(如 RAG-Thief 所研究的)也開始受到關注效率優化:新的 RAG 變體都在嘗試通過各種方式提升處理效率,降低計算成本可解釋性提升:許多新方法都強調了可解釋性的重要性,試圖讓模型決策過程更透明基礎架構的創新你有沒有遇到過這樣的情況,讓 RAG 回答一個問題,它要么給出一大堆相關但不夠準確的信息,要么干脆答非所問。這就像一個初入職場的新人,雖然知識儲備不錯,但不太懂得“抓重點”。針對這些基礎問題,研究者們提出了一系列創新性的解決方案。比如中科院提出的 AutoRAG,它不再是簡單地“給什么找什么”,而是讓 RAG 系統學會自主判斷。假設你問“誰是《怪物史萊克》中驢子的配音演員?”,普通的 RAG 系統可能會傻乎乎地去搜索所有包含“驢子”和“配音”的資料。但 AutoRAG 會這樣思考:看到區別了吧,AutoRAG 就像一個會自主思考的助手,知道該怎么一步步找到最準確的答案。同時,它還可以用自然語言解釋自己的思考過程,讓你明白它為什么這樣做。這種透明度在實際應用中特別重要。CORAG 則從另一個角度提出了解決方案。現有的 RAG 系統在選擇文本塊時往往考慮,忽視了文本塊之間的相關性。這就像是在解答一個復雜問題時,只看到了各個零散的知識點,卻沒有將它們有機地聯系起來。CORAG 的核心創新在于使用蒙特卡洛樹搜索(MCTS)來探索文本塊的最優組合順序,同時引入配置代理來動態調整系統參數。它就像是在玩一個高級版的拼圖游戲:不過,這種方法也有其局限性:構建和遍歷策略樹需要較多計算資源,參數的調整也需要仔細權衡。我們都知道大模型是有上下文長度限制的,過長的上下文內容會顯著的降低大模型的效果。在 RAG 中尤為明顯,為了讓 RAG 能夠“記住”和“理解”知識,研究者們提出了一些非常有意思的解決方案。FastRAG 制定了一個“兩步走”的策略,先用簡單的關鍵詞匹配快速劃定范圍,再用更復雜的語義分析找出最相關的內容,就像你在找一本書,先看書架的分類標簽找到大致區域,再根據書名和目錄找到具體的那本。這不就是傳統搜索引擎的召回-粗排-精排的邏輯嘛??赡?AssistantRAG 的作者出發點是想借鑒 Adapter 的思想,提出了一個很類似的設計:既然一個大模型的記憶能力有限,那么給主模型配備一個“專業秘書”模型。秘書模型負責記憶管理和知識管理,它會記錄歷史問答信息,評估這些記憶對當前問題的幫助程度;還會將復雜問題分解成簡單的子問題,針對每個子問題檢索外部知識庫,主模型負責生成最終的輸出。這種方法的優勢在于靈活性強,在不同的場景,通過更換秘書模型達到快速適配的目的。MemoryRAG 引入了一個“記憶模塊”,就像是一個經驗豐富的圖書管理員,不僅懂得找書,還能理解讀者的潛在需求。就像是你要找一本關于愛情主題的書籍的時候,可能書名根本不包括愛情。MemoryRAG 采用了雙重架構,一個負責處理長文本形成整體印象,另一個負責最終的回答生成。這種設計特別適合處理需要全局理解的復雜查詢,比如分析文學作品中的人物關系、總結長篇報告等任務。為了更好的利用外部的知識,RuAG 通過規則增強的方式來提升模型的理解能力。比如在天氣預測場景中,與其讓模型記住大量天氣數據,不如教會它理解“如果溫度超過 30 度且濕度低于 50%,那么天氣晴朗”這樣的規則。這種方法更容易理解和記憶,計算成本也較低。復雜數據的處理隨著 RAG 應用場景的不斷增多,我們可能會遇到各種各樣的數據,網頁、PDF、文本、時序、音頻、視頻等等,每種數據類型都帶來了獨特的挑戰。在網頁數據處理方面,HtmlRAG 提供了一個很巧妙的解決方案。它不是簡單地把網頁轉換成純文本,而是嘗試保留那些傳達重要含義的 HTML 標簽。它首先會清理掉網頁中的廣告代碼、樣式表等“干擾信息”,但會保留那些傳達重要含義的 HTML 標簽。比如說,“<h1>Windows 安裝教程</h1>”這樣的標簽就會被保留,因為它告訴我們這是一個重要的標題。相比純文本的方式,基于這樣的結構化信息, HtmlRAG 能夠更加高效的利用網頁信息。時間序列預測是個老生常談的問題,比如預測明天的天氣、股票走勢、電力消耗等。傳統方法往往把這些預測看作是的任務。但想想看,如果我們能找到歷史上相似的情況作為參考,預測效果會不會更好呢?舉個簡單的例子:假設你在預測某個城市明天的溫度。如果你能找到歷史上天氣條件非常相似的那幾天,看看那之后溫度是怎么變化的,這樣的預測顯然會更準確。這就是論文提出檢索增強預測(RAF)的核心思想。它會先在歷史數據中找到類似的模式片段,看看那個歷史數據之后模式是怎么變化的,再將這些歷史經驗作為預測的參考。除了文本之外,有沒有想過,RAG 的思想也是可以應用到視頻理解場景的,但你知道現在的大語言模型處理長視頻時會遇到什么問題嗎?最主要的就是“記不住” – 上下文窗口的限制讓它們難以處理長視頻。有的團隊試圖通過微調來擴展模型的處理能力,有的則嘗試使用更大的模型。但這些方法要么需要大量訓練數據,要么成本太高。VideoRAG 提出了一個很獨特的方法。它從不同角度來理解視頻:從多個維度去理解視頻確實能夠得到更好的效果,但不同信息之間的對齊可能是一個需要考慮的問題。垂直領域的創新RAG 技術在各個垂直領域都展現出了強大的應用潛力,研究者們針對不同領域的特點,提出了一系列創新性的解決方案。我們知道,在醫療領域,精確和可靠的診斷信息處理至關重要。LabRAG 模仿了醫生看片的過程,先識別關鍵的醫學發現,再基于這些發現寫報告。PathRAG 專門針對病理切片圖像進行了優化,它結合了關鍵區域識別和大語言模型,在準確率上提高了將近 10 個百分點。MMedRAG 解決了醫療視覺語言模型在生成回答時經常產生幻覺的問題,它引入了領域感知的檢索機制、自適應的上下文選擇方法和基于 RAG 的偏好微調策略,顯著提高了生成內容的原創性和可靠性。在材料科學領域,G-RAG 提供了一個非常創新的解決方案。它將圖數據庫整合到檢索過程中,通過實體提取與關聯、智能文檔解析、圖譜增強檢索等技術,在準確性評分上遠高于傳統 RAG 系統。這種提升在材料科學這樣需要精確信息的領域特別重要。RAGDiffusion 為時尚電商領域提供了一個實用的解決方案。它像一個經驗豐富的攝影師,通過分析輸入的服裝照片,在標準服裝圖片數據庫中尋找相似的參考樣本,再采用多層次的生成對齊策略,確保生成圖片的高質量。比較讓人意外的是,這個系統的泛化性也非常的好,通過簡單更新檢索數據庫,就能夠處理全新的服裝款式,這種靈活性在快速變化的時尚行業特別重要。金融分析師每天要閱讀大量的財報、公告、研究報告,而且時效性要求特別高。針對這種情況,研究者們開發了 MultiReranker 系統。它的工作方式如下:首先,它會對用戶的問題進行多維度的拆解和改寫,比如當你問“Q3 的 ROE 是多少”時,系統會先理解:然后,它采用了一個“多級篩選”的策略,就像是組建了一個金融分析師團隊:通過多級的檢索機制實現對信息對高效利用。特別是,當輸入文本太長時,系統會把文檔分成兩半分別處理,然后再把生成的答案合并起來,既保證了準確性,又提高了效率。RAG 的劍沒有絕對安全的系統,也沒有絕對安全的技術。隨著 RAG 技術在醫療、金融、法律等敏感領域的廣泛應用,安全性問題日益凸顯。RAG-Thief 的研究讓我們清晰地看到了當前 RAG 系統中存在的安全隱患。很多人可能會覺得疑惑:RAG 系統不是只會返回相關信息嗎,怎么會有安全問題呢?但研究者通過巧妙設計的實驗揭示了其中的風險。想象一下,如果一家醫院使用 RAG 系統來回答醫療咨詢,當有人問“感冒有什么癥狀”時,系統會正常地返回一般性的醫學知識。但如果有人用特殊的方式提問,比如巧妙地設計問題來套取原始病例信息,系統可能就會不經意間泄露病人的隱私數據。論文發現,在沒有特殊防護措施的情況下,攻擊者能夠提取出超過 70% 的知識庫內容。針對這些問題,也有一些可以探索的措施。例如,在系統層面,需要建立嚴格的訪問控制機制,對檢索內容進行脫敏處理,并建立完善的安全審計系統。在算法層面,可以引入噪聲擾動和差分隱私技術,降低信息泄露的風險。在日常運營中,定期的安全評估和及時的漏洞修復也是不可或缺的??偨Y最后,來一個小小的總結吧。RAG 的范式是簡單可理解的,但真正落地實踐的過程中,會有許許多多的問題和痛點。上面提到的 RAG 方法或框架,也只是給出了優化探索的方向,真正在自己的場景中發揮 RAG 的效果,還是有一段路需要摸索。在實際中應用 RAG 的時候,可以進行綜合的考慮,效果不佳的情況下可以嘗試進行各種組合,在效果不達標的情況下,不要過度的考慮性能,畢竟,拋開效果談性能也是耍流氓!參考文獻[1] https://arxiv.org/pdf/2411.02959 [2] https://arxiv.org/pdf/2411.13773 [3] https://arxiv.org/pdf/2411.19443[4]https://arxiv.org/pdf/2411.00744 [5]https://arxiv.org/pdf/2409.05591[6]https://arxiv.org/pdf/2411.14110[7]https://arxiv.org/pdf/2411.06805[8]https://arxiv.org/pdf/2411.16523 [9]https://arxiv.org/pdf/2411.13093 [10]https://arxiv.org/pdf/2411.08249 [11]https://arxiv.org/pdf/2411.03349 [12]https://arxiv.org/pdf/2410.13085[13]https://arxiv.org/pdf/2411.17073 [14]https://arxiv.org/pdf/2411.16732[15]https://arxiv.org/pdf/2411.14592 [16]https://arxiv.org/pdf/2411.19528
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
暫無評論...

粵公網安備 44011502001135號