小さな VLM + カスタム データセットの微調整は GPT-5 とほぼ同等ですが、50 倍安価です。 @LiquidAIのメンバーである@paulabartabajo氏による、AIエンジニア向けの実践的なアドバイスです。核となるメッセージは、特定のタスクやドメインにおいて、小規模な視覚言語モデル(VLM)を使用し、カスタムデータセットで微調整することで、大規模な汎用モデル(GPT-5など)に匹敵する精度を実現しながら、コストを大幅に削減(約50分の1)できるという点を強調しています。これは、AI開発における効率至上主義を反映しています。小規模なモデルは多くの場合、より経済的で、特殊なシナリオへの導入が容易であり、微調整によってターゲットを絞ったパフォーマンス最適化が可能になり、大規模モデルにおけるリソースの無駄を回避できます。 このオープンソースプロジェクトには、Liquid AI Foundation Model (LFM) と LEAP SDK を使用して構築された、様々なチュートリアル、サンプル、アプリケーションが含まれています。請求書ドキュメントを自動解析するためのローカライズされたエージェントワークフローの構築方法を示しています。プロセス全体がユーザーのローカルマシン上で実行されるため、クラウドサービスやAPIキーを必要とせず、データのプライバシーが重視されています。 指定されたフォルダ内の新しい請求書ファイル(通常はPNGやJPEGなどの画像形式)を監視し、金額や通貨などの構造化情報を抽出するシンプルなPython CLIを作成します。抽出された結果はCSVファイルに追加され、後で分析やログ記録に使用できます。このワークフローは、日々の請求書や請求書の処理に適しており、小規模なローカル言語モデルの実用性を示すものです。テストの結果、サンプル請求書の約75%を正しく処理できたため、モデルの実用性と改善の余地が明らかになりました。 主要なテクノロジーとモデル: @ollama: 言語モデルをローカルで実行および管理し、効率的なモデル推論をサポートするフレームワーク。 uv: 依存関係とスクリプト実行を処理し、開発効率を向上させる高効率 Python パッケージ マネージャー。 • LFM2-VL-3B: Liquid AI のビジュアル言語モデル。OCR 機能を含め、請求書画像から生のテキスト説明を抽出します。 • LFM2-1.2B-Extract: 非構造化テキストを JSON 形式の金額や通貨フィールドなどの構造化データ レコードに変換することに特化した別の Liquid AI モデル。 これらのモデルはすべて小型(ナノサイズ)で、通常のハードウェア上で実行できるため、コスト効率とローカル展開が重視されています。 コード構造と動作原理は主にsrc/invoice_parser/main.pyに配置されており、拡張を容易にするモジュール設計を採用しています。ワークフローは以下のステップで構成されます。 1. ファイル監視: ツールは指定されたディレクトリ (invoices/ など) を継続的に監視し、新しく追加された請求書ファイルを検出します。 2. テキスト抽出: 新しいファイルが検出されると、LFM2-VL-3B モデルは画像を処理し、元のテキストの説明を生成します (例:「合計: $100 USD」などのコンテンツを認識)。 3. 情報構造化: 抽出されたテキストは LFM2-1.2B-Extract モデルに渡され、プロンプトエンジニアリングを使用してテキストが {"amount": 100, "currency": "USD"} などの構造化データに変換されます。 4. データ ストレージ: データの永続性を確保するために、構造化された結果をディレクトリ内の bills.csv ファイルに追加します。 プロセス全体は、インテリジェントエージェントのコラボレーションと同様に連鎖的に構成されています。視覚モデルは「目」として機能し、抽出モデルは「脳」として機能します。既存のファイルを処理する場合は、コマンドライン引数を使用してこの機能を有効にできます。 オープンソースアドレス:
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
