小型VLM + 自訂資料集微調≈ GPT-5,且便宜50 倍! 來自@LiquidAI_ 會員@paulabartabajo_ 給AI 工程師的實用建議。核心觀點強調:在特定任務或領域,使用小型視覺語言模型(VLM)並基於自訂資料集進行微調,可以實現與大型通用模型(如GPT-5)相當的準確性,同時顯著降低成本(約50 倍)。這體現了AI 開發中的效率優先原則:小型模型在專用場景下往往更經濟、更易部署,且透過微調能針對性優化效能,避免大模型的資源浪費。 開源專案使用Liquid AI 基礎模型(LFM)和LEAP SDK 建立的各種教學、範例和應用。示範如何建立一個本地化的智能體工作流程,用於自動解析發票文件。它強調資料隱私,因為整個過程在用戶本機上運行,無需雲端服務或API 金鑰。 建立一個簡單的Python CLI,它可以監控指定資料夾中的新發票檔案(通常為圖像格式,如PNG 或JPEG),並從中提取結構化訊息,例如金額和貨幣。然後,將擷取的結果追加到CSV 檔案中,以便於後續分析或記錄。此工作流程適用於處理日常帳單或發票,展示了小型本地語言模型在實際任務中的應用潛力。根據測試,它能正確處理約75% 的樣本發票,突顯模型的實用性和改進空間。 關鍵技術與模型· @ollama:用於在本地運行和管理語言模型的框架,支援高效的模型推理。 · uv:一個高效的Python 套件管理器,用於處理依賴和腳本執行,提高開發效率。 · LFM2-VL-3B:Liquid AI 的視覺語言模型,負責從發票圖像中提取原始文字描述,包括OCR 功能。 · LFM2-1.2B-Extract:另一個Liquid AI 模型,專用於將非結構化文字轉換為結構化資料記錄,例如JSON 格式的金額和貨幣欄位。 這些模型均為小型(nano 等級),可在普通硬體上運行,強調成本效益和本地部署。 程式碼結構和工作原理程式碼主要位於src/invoice_parser/main.py,採用模組化設計,方便擴充。工作流程分為以下步驟: 1. 文件監控:工具持續監視指定的目錄(如invoices/),偵測新新增的發票檔案。 2. 文字擷取:一旦偵測到新文件,LFM2-VL-3B 模型會處理影像,產生原始文字描述(例如,辨識出「Total: $100 USD」 等內容)。 3. 資訊結構化:將擷取的文字傳遞給LFM2-1.2B-Extract 模型,它使用提示工程將文字轉換為結構化數據,如{"amount": 100, "currency": "USD"}。 4. 資料儲存:將結構化結果追加到目錄中的bills.csv 文件,確保資料持久化。 整個過程是鍊式的(chained),類似於智能體協作:視覺模型充當“眼睛”,提取模型充當“大腦”。如果處理現有文件,可以透過命令列參數啟用。 開源位址:
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
