X (Twitter)

小型VLM + 自訂資料集微調≈ GPT-5，且便宜50 倍！來自@LiquidAI_ 會員@paulabartabajo_ 給AI 工程師的實用建議。核心觀點強調：在特定任務或領域，使用小型視覺語言模型（VLM）並基於自訂資料集進行微調，可以實現與大型通用模型（如GPT-5）相當的準確性，同時顯著降低成本（約50 倍）。這體現了AI 開發中的效率優先原則：小型模型在專用場景下往往更經濟、更易部署，且透過微調能針對性優化效能，避免大模型的資源浪費。開源專案使用Liquid AI 基礎模型（LFM）和LEAP SDK 建立的各種教學、範例和應用。示範如何建立一個本地化的智能體工作流程，用於自動解析發票文件。它強調資料隱私，因為整個過程在用戶本機上運行，無需雲端服務或API 金鑰。建立一個簡單的Python CLI，它可以監控指定資料夾中的新發票檔案（通常為圖像格式，如PNG 或JPEG），並從中提取結構化訊息，例如金額和貨幣。然後，將擷取的結果追加到CSV 檔案中，以便於後續分析或記錄。此工作流程適用於處理日常帳單或發票，展示了小型本地語言模型在實際任務中的應用潛力。根據測試，它能正確處理約75% 的樣本發票，突顯模型的實用性和改進空間。關鍵技術與模型· @ollama：用於在本地運行和管理語言模型的框架，支援高效的模型推理。 · uv：一個高效的Python 套件管理器，用於處理依賴和腳本執行，提高開發效率。 · LFM2-VL-3B：Liquid AI 的視覺語言模型，負責從發票圖像中提取原始文字描述，包括OCR 功能。 · LFM2-1.2B-Extract：另一個Liquid AI 模型，專用於將非結構化文字轉換為結構化資料記錄，例如JSON 格式的金額和貨幣欄位。這些模型均為小型（nano 等級），可在普通硬體上運行，強調成本效益和本地部署。程式碼結構和工作原理程式碼主要位於src/invoice_parser/main.py，採用模組化設計，方便擴充。工作流程分為以下步驟： 1. 文件監控：工具持續監視指定的目錄（如invoices/），偵測新新增的發票檔案。 2. 文字擷取：一旦偵測到新文件，LFM2-VL-3B 模型會處理影像，產生原始文字描述（例如，辨識出「Total: $100 USD」等內容）。 3. 資訊結構化：將擷取的文字傳遞給LFM2-1.2B-Extract 模型，它使用提示工程將文字轉換為結構化數據，如{"amount": 100, "currency": "USD"}。 4. 資料儲存：將結構化結果追加到目錄中的bills.csv 文件，確保資料持久化。整個過程是鍊式的（chained），類似於智能體協作：視覺模型充當“眼睛”，提取模型充當“大腦”。如果處理現有文件，可以透過命令列參數啟用。開源位址：

來自 meng shao（@shao__meng）的推文串

作者資訊

推文串內容