Deepseek引發(fā)的RAG熱潮:一周出demo,半年用不好

原標(biāo)題:Deepseek引發(fā)的RAG熱潮:一周出demo,半年用不好
文章來(lái)源:JioNLP
內(nèi)容字?jǐn)?shù):4575字
Deepseek 熱潮與 RAG 的:中小團(tuán)隊(duì)的 AI 部署困境
近年來(lái),大型語(yǔ)言模型(LLM)如 Deepseek 迅速走紅,各行各業(yè)的領(lǐng)導(dǎo)者都渴望將其應(yīng)用于自身業(yè)務(wù),以實(shí)現(xiàn) AI 智能化。然而,現(xiàn)實(shí)情況往往與理想相差甚遠(yuǎn),尤其是在資源有限的中小團(tuán)隊(duì)中。本文將深入探討 Deepseek 部署過(guò)程中遇到的挑戰(zhàn),特別是基于檢索增強(qiáng)生成 (RAG) 的系統(tǒng)開(kāi)發(fā)中常見(jiàn)的七個(gè)失敗點(diǎn),并提供一些可能的改進(jìn)方向。
1. Deepseek 部署的現(xiàn)實(shí)挑戰(zhàn)
許多單位僅擁有一臺(tái) GPU 服務(wù)器,難以部署 Deepseek 的完整版本。即使部署了參數(shù)量較小的版本,結(jié)合私有數(shù)據(jù)后,模型的幻覺(jué)和重復(fù)回答問(wèn)題依然突出。因此,RAG 技術(shù)成為許多團(tuán)隊(duì)的關(guān)注焦點(diǎn),希望通過(guò)檢索相關(guān)文檔來(lái)提升模型的準(zhǔn)確性和可靠性。
2. RAG 的
然而,基于一篇題為《Seven Failure Points When Engineering a Retrieval Augmented Generation System》的論文,RAG 系統(tǒng)在實(shí)際應(yīng)用中存在七個(gè)主要的失敗點(diǎn):
內(nèi)容缺失 (FP1): 所需信息不在文檔庫(kù)中,系統(tǒng)卻給出不相關(guān)的答案。
檢索 TopK 內(nèi)容缺失 (FP2): 答案存在于文檔庫(kù),但排名靠后未被檢索到。
未在上下文中 (FP3): 系統(tǒng)檢索到包含答案的文檔,但未將其納入上下文進(jìn)行答案生成。
未提取 (FP4): 答案在上下文中,但 LLM 無(wú)法提取。
錯(cuò)誤格式 (FP5): LLM 未按照要求的格式返回答案。
錯(cuò)誤的特異性 (FP6): 答案過(guò)于籠統(tǒng)或過(guò)于具體,無(wú)法滿足用戶需求。
不完整 (FP7): 答案正確但缺少部分信息。
3. 改進(jìn)方向
為了改善 RAG 系統(tǒng)的性能,論文提出了一些研究方向:
更長(zhǎng)的上下文信息 (FP4): 增加 LLM 的上下文窗口大小。
語(yǔ)義緩存 (FP1): 利用緩存技術(shù)降低成本和延遲。
RAG 越獄 (FP5-FP7): 通過(guò)微調(diào) LLM 來(lái)提升其基礎(chǔ)能力。
增加元信息 (FP2,FP4): 在檢索到的上下文中添加文件名和塊編號(hào)等元信息。
開(kāi)源嵌入模型 (FP2-FP7): 利用開(kāi)源嵌入模型處理小型文本。
RAG 系統(tǒng)持續(xù)校準(zhǔn) (FP2-FP7): 持續(xù)監(jiān)控和調(diào)整 RAG 系統(tǒng)。
RAG 配置流水線 (FP1,FP2): 建立完善的 RAG 配置流水線。
離線評(píng)估技術(shù) (FP2-FP4): 開(kāi)發(fā)更有效的離線評(píng)估技術(shù)。
4. 總結(jié)
Deepseek 等大型語(yǔ)言模型的應(yīng)用前景廣闊,但其部署和應(yīng)用并非易事。中小團(tuán)隊(duì)在利用 RAG 技術(shù)構(gòu)建 AI 系統(tǒng)時(shí),需要充分認(rèn)識(shí)并解決上述七個(gè)失敗點(diǎn),才能真正發(fā)揮 AI 的價(jià)值,避免“一周出 demo,半年用不好”的困境。持續(xù)學(xué)習(xí)和改進(jìn)是 AI 應(yīng)用成功的關(guān)鍵。
聯(lián)系作者
文章來(lái)源:JioNLP
作者微信:
作者簡(jiǎn)介:用數(shù)學(xué)和程序解構(gòu)世界。

粵公網(wǎng)安備 44011502001135號(hào)