X (Twitter)

RAG 已死？ RAG 永生！ —— 智能體時代的精準檢索來自@LightOnIO 團隊的文章“RAG is Dead. Long Live RAG”，探討了RAG 在LLM 快速發展中的演變。作者認為，RAG 並非被長上下文視窗所取代，而是進化成一種更聰明、更有效率的「條件注意力」機制，尤其在智能體主導的AI 系統時代。核心論點：長上下文並非RAG 的終結者文章開篇直擊一個流行誤區：許多人認為LLM 上下文視窗的擴大讓RAG 變得多餘，因為模型能一次「吞下」海量資訊。但作者用數據和類比反駁：長上下文雖強大，卻帶來高成本、低效和效能衰退問題。例如，將整個1000 頁知識庫（約600K tokens）塞入提示，會導致「注意力稀釋」（attention dilution），關鍵資訊被淹沒——這類似於「中間丟失」現象（lost in the middle），基準測試如HELMET 顯示，模型在長序列中回憶準確率可降20-30%。更實際的是經濟性：針對典型工作負載（如每天100 次查詢），RAG 只需檢索5 個針對性片段，就能比長上下文便宜8-82 倍，且延遲更低。作者提供了一個線上計算器，模擬不同場景，證明即使考慮緩存，長上下文的生成時間仍主導成本。類比生動：長上下文像開會時邀請全員討論簡單問題（成本飆升），而RAG 則是精準諮詢專家（高效且準確）。多模態與條件檢索：RAG 的升級路徑 RAG 的重生在於適應智能體時代，從「盲目檢索」轉向「有條件決策」。文章分層剖析這一棧式架構： · 何時檢索（IF）：智慧體根據查詢類型、時效性和安全需求路由工具。例如，簡單算術如「2+2」無需檢索，而財務報告查詢則必須啟動。 · 檢索什麼（WHAT）：透過實體辨識和查詢重寫，新增元資料過濾（如時間範圍、部門），避免無關雜訊。 · 從哪裡、如何檢索（WHERE & HOW）：策略動態選擇－代碼用詞法搜尋（如grep），散文用語意混合，多模態內容（如圖表）需視覺嵌入模型與重新排序器（如MonoQwen）。這解決了傳統工具的限制：grep 雖快，但對影像或空間關係（如「套管吊掛上方有哪些元件？」）一籌莫展。多模態是另一個亮點。文章指出，企業資料70% 以上是非純文字（如圖表、程式碼），長上下文雖能「看」影像（每圖需1-1.5K tokens），但成本暴增，且理解淺顯。 RAG 透過離線預先計算元資料（如預先建構多模態集合），實現即時高效檢索，減少幻覺並提升企業適用性。評估與未來展望：從管道到智慧生態作者強調，RAG 系統的成功依賴「顆粒化評估」：不是只看端到端輸出（如準確率），而是逐階段拆解——路由的F1 分數、查詢理解的召回提升、檢索的精確度、重排序前後對比、生成的忠實度。這能隔離故障，推動優化，避免「黑箱」困境。回顧歷史，文章描繪RAG 炒作週期：2023 年高峰（向量資料庫熱潮），2024-2025 年「死亡」論調（MCP、Claude Code 的grep），但這些只是演進。預測2025 年，RAG 將深度嵌入智能體，從靜態管道轉為動態決策模組，與長上下文互補－廣義查詢用全上下文，精確查詢用針對檢索。結論與啟示文章推薦「思考前檢索」的智慧管道：預計算元資料、混合策略、多模態工具。這不僅是技術迭代，更是AI 向智慧體化轉型的必然性——高效、可靠的檢索將支撐企業從聊天機器人到複雜決策系統的躍升。

來自 meng shao（@shao__meng）的推文串

作者資訊

推文串內容