做RAG 應用或建構知識庫時,最頭痛的往往不是模型選擇,而是資料處理管線。 需要寫一堆Python 腳本去清洗、切片、向量化,而且來源資料一變,全量重跑既費時又費錢。 最近在GitHub 上看到CocoIndex 這個開源項目,專為AI 場景打造的高效能資料轉換框架。 只要用大概100 行Python 程式碼,就能定義從檔案讀取、分塊到向量入庫的整個過程。 GitHub:https://t.co/RwUjyHJEym 支援多種資料來源和目標,包括本機檔案、Amazon S3、Google Drive,以及Postgres、Qdrant、LanceDB 等向量資料庫。 除此之外,還內建文字分塊、嵌入生成、PDF 解析、知識圖譜建構等常用轉換元件。 提供了豐富的範例,涵蓋語義搜尋、知識圖譜、產品推薦、圖像搜尋等20 多個實際應用場景,可以直接參考使用。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。

