RAG 已死? RAG 永生! —— 智能體時代的精準檢索 來自@LightOnIO 團隊的文章“RAG is Dead. Long Live RAG”,探討了RAG 在LLM 快速發展中的演變。作者認為,RAG 並非被長上下文視窗所取代,而是進化成一種更聰明、更有效率的「條件注意力」機制,尤其在智能體主導的AI 系統時代。 核心論點:長上下文並非RAG 的終結者文章開篇直擊一個流行誤區:許多人認為LLM 上下文視窗的擴大讓RAG 變得多餘,因為模型能一次「吞下」海量資訊。但作者用數據和類比反駁:長上下文雖強大,卻帶來高成本、低效和效能衰退問題。例如,將整個1000 頁知識庫(約600K tokens)塞入提示,會導致「注意力稀釋」(attention dilution),關鍵資訊被淹沒——這類似於「中間丟失」現象(lost in the middle),基準測試如HELMET 顯示,模型在長序列中回憶準確率可降20-30%。 更實際的是經濟性:針對典型工作負載(如每天100 次查詢),RAG 只需檢索5 個針對性片段,就能比長上下文便宜8-82 倍,且延遲更低。作者提供了一個線上計算器,模擬不同場景,證明即使考慮緩存,長上下文的生成時間仍主導成本。類比生動:長上下文像開會時邀請全員討論簡單問題(成本飆升),而RAG 則是精準諮詢專家(高效且準確)。 多模態與條件檢索:RAG 的升級路徑 RAG 的重生在於適應智能體時代,從「盲目檢索」轉向「有條件決策」。文章分層剖析這一棧式架構: · 何時檢索(IF):智慧體根據查詢類型、時效性和安全需求路由工具。例如,簡單算術如「2+2」無需檢索,而財務報告查詢則必須啟動。 · 檢索什麼(WHAT):透過實體辨識和查詢重寫,新增元資料過濾(如時間範圍、部門),避免無關雜訊。 · 從哪裡、如何檢索(WHERE & HOW):策略動態選擇-代碼用詞法搜尋(如grep),散文用語意混合,多模態內容(如圖表)需視覺嵌入模型與重新排序器(如MonoQwen)。這解決了傳統工具的限制:grep 雖快,但對影像或空間關係(如「套管吊掛上方有哪些元件?」)一籌莫展。 多模態是另一個亮點。文章指出,企業資料70% 以上是非純文字(如圖表、程式碼),長上下文雖能「看」影像(每圖需1-1.5K tokens),但成本暴增,且理解淺顯。 RAG 透過離線預先計算元資料(如預先建構多模態集合),實現即時高效檢索,減少幻覺並提升企業適用性。 評估與未來展望:從管道到智慧生態作者強調,RAG 系統的成功依賴「顆粒化評估」:不是只看端到端輸出(如準確率),而是逐階段拆解——路由的F1 分數、查詢理解的召回提升、檢索的精確度、重排序前後對比、生成的忠實度。這能隔離故障,推動優化,避免「黑箱」困境。 回顧歷史,文章描繪RAG 炒作週期:2023 年高峰(向量資料庫熱潮),2024-2025 年「死亡」論調(MCP、Claude Code 的grep),但這些只是演進。預測2025 年,RAG 將深度嵌入智能體,從靜態管道轉為動態決策模組,與長上下文互補-廣義查詢用全上下文,精確查詢用針對檢索。 結論與啟示文章推薦「思考前檢索」的智慧管道:預計算元資料、混合策略、多模態工具。這不僅是技術迭代,更是AI 向智慧體化轉型的必然性——高效、可靠的檢索將支撐企業從聊天機器人到複雜決策系統的躍升。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
