Un petit VLM + un réglage fin sur un ensemble de données personnalisé est approximativement équivalent à GPT-5, mais 50 fois moins cher ! Conseils pratiques pour les ingénieurs en IA de @paulabartabajo, membre de @LiquidAI. Le message principal souligne que, pour des tâches ou des domaines spécifiques, l'utilisation de petits modèles de langage visuel (MLV) et leur ajustement fin sur des jeux de données personnalisés permettent d'atteindre une précision comparable à celle des grands modèles généralistes (comme GPT-5), tout en réduisant considérablement les coûts (environ 50 fois). Ceci illustre le principe d'efficacité primordiale en développement d'IA : les modèles plus petits sont souvent plus économiques et plus faciles à déployer dans des scénarios spécialisés, et l'ajustement fin permet une optimisation ciblée des performances, évitant ainsi le gaspillage de ressources des grands modèles. Ce projet open source propose divers tutoriels, exemples et applications développés à l'aide du modèle Liquid AI Foundation (LFM) et du kit de développement logiciel LEAP (LEAP SDK). Il illustre la création d'un flux de travail d'agent localisé pour l'analyse automatique des factures. La confidentialité des données est primordiale, car l'ensemble du processus s'exécute sur la machine locale de l'utilisateur, sans nécessiter de services cloud ni de clés API. Créez une interface en ligne de commande (CLI) Python simple qui surveille les nouveaux fichiers de factures (généralement des images PNG ou JPEG) dans un dossier spécifié et extrait des informations structurées telles que le montant et la devise. Les résultats extraits sont ensuite ajoutés à un fichier CSV pour analyse ou enregistrement ultérieur. Ce processus est adapté au traitement quotidien des factures, démontrant ainsi le potentiel d'un petit modèle de langage local pour des tâches concrètes. D'après les tests, il a traité correctement environ 75 % des factures de test, soulignant la praticité du modèle et son potentiel d'amélioration. Technologies et modèles clés : @ollama : Un framework pour exécuter et gérer localement des modèles de langage, prenant en charge une inférence de modèles efficace. uv : Un gestionnaire de paquets Python haute performance pour la gestion des dépendances et l’exécution des scripts, améliorant ainsi l’efficacité du développement. • LFM2-VL-3B : Modèle de langage visuel de Liquid AI, responsable de l'extraction des descriptions textuelles brutes à partir des images de factures, y compris la fonctionnalité OCR. • LFM2-1.2B-Extract : Un autre modèle Liquid AI dédié à la conversion de texte non structuré en enregistrements de données structurées, tels que les champs de montant et de devise au format JSON. Ces modèles sont tous de petite taille (de taille nanométrique) et peuvent fonctionner sur du matériel ordinaire, ce qui met l'accent sur la rentabilité et le déploiement local. La structure du code et son principe de fonctionnement se trouvent principalement dans le fichier src/invoice_parser/main.py, et son architecture modulaire facilite son extension. Le flux de travail comprend les étapes suivantes : 1. Surveillance des fichiers : L'outil surveille en permanence un répertoire spécifié (tel que invoices/) pour détecter les fichiers de factures nouvellement ajoutés. 2. Extraction de texte : Une fois qu'un nouveau fichier est détecté, le modèle LFM2-VL-3B traite l'image et génère la description textuelle originale (par exemple, en reconnaissant un contenu tel que « Total : 100 $ USD »). 3. Structuration de l'information : Le texte extrait est transmis au modèle LFM2-1.2B-Extract, qui utilise l'ingénierie des invites pour convertir le texte en données structurées, telles que {"amount": 100, "currency": "USD"}. 4. Stockage des données : Ajoutez les résultats structurés au fichier bills.csv dans le répertoire pour assurer la persistance des données. L'ensemble du processus est enchaîné, à l'instar de la collaboration entre agents intelligents : le modèle visuel joue le rôle des « yeux » et le modèle d'extraction celui du « cerveau ». En cas de traitement de fichiers existants, cette fonctionnalité peut être activée via des arguments de ligne de commande. Adresse open source :
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
