X (Twitter)

O ajuste fino de um modelo VLM pequeno com um conjunto de dados personalizado é aproximadamente equivalente ao GPT-5, mas 50 vezes mais barato! Conselhos práticos para engenheiros de IA de @paulabartabajo, membro da @LiquidAI. A mensagem principal enfatiza que, para tarefas ou domínios específicos, o uso de pequenos modelos de linguagem visual (VLMs) e seu ajuste fino em conjuntos de dados personalizados podem alcançar uma precisão comparável à de grandes modelos de propósito geral (como o GPT-5), reduzindo significativamente os custos (aproximadamente 50 vezes). Isso reflete o princípio da eficiência em primeiro lugar no desenvolvimento de IA: modelos menores costumam ser mais econômicos e fáceis de implantar em cenários especializados, e o ajuste fino permite a otimização direcionada do desempenho, evitando o desperdício de recursos de modelos grandes. Este projeto de código aberto apresenta uma variedade de tutoriais, exemplos e aplicações criados usando o Liquid AI Foundation Model (LFM) e o SDK LEAP. Ele demonstra como construir um fluxo de trabalho de agente localizado para analisar automaticamente documentos de faturas. O projeto enfatiza a privacidade dos dados, pois todo o processo é executado na máquina local do usuário, sem a necessidade de serviços em nuvem ou chaves de API. Crie uma CLI simples em Python que monitore novos arquivos de faturas (normalmente em formatos de imagem como PNG ou JPEG) em uma pasta específica e extraia informações estruturadas, como valor e moeda. Os resultados extraídos são então adicionados a um arquivo CSV para posterior análise ou registro. Este fluxo de trabalho é adequado para processar contas ou faturas diárias, demonstrando o potencial de um pequeno modelo de linguagem local em tarefas do mundo real. De acordo com os testes, ele processou corretamente aproximadamente 75% das faturas de amostra, destacando a praticidade do modelo e a possibilidade de melhorias. Tecnologias e modelos principais: @ollama: Uma estrutura para executar e gerenciar modelos de linguagem localmente, que oferece suporte à inferência eficiente de modelos. uv: Um gerenciador de pacotes Python de alta eficiência para lidar com dependências e execução de scripts, melhorando a eficiência do desenvolvimento. • LFM2-VL-3B: Modelo de linguagem visual da Liquid AI, responsável por extrair descrições de texto bruto de imagens de faturas, incluindo funcionalidade OCR. • LFM2-1.2B-Extract: Outro modelo da Liquid AI dedicado a converter texto não estruturado em registros de dados estruturados, como campos de valor e moeda em formato JSON. Todos esses modelos são pequenos (em nanoescala) e podem ser executados em hardware comum, priorizando a relação custo-benefício e a implantação local. A estrutura do código e o princípio de funcionamento estão localizados principalmente em src/invoice_parser/main.py, empregando um design modular para facilitar a expansão. O fluxo de trabalho consiste nas seguintes etapas: 1. Monitoramento de arquivos: A ferramenta monitora continuamente um diretório especificado (como invoices/) para detectar arquivos de faturas recém-adicionados. 2. Extração de texto: Assim que um novo arquivo é detectado, o modelo LFM2-VL-3B processa a imagem e gera a descrição textual original (por exemplo, reconhecendo conteúdo como "Total: $100 USD"). 3. Estruturação da Informação: O texto extraído é passado para o modelo LFM2-1.2B-Extract, que usa engenharia de prompts para converter o texto em dados estruturados, como {"amount": 100, "currency": "USD"}. 4. Armazenamento de dados: Anexe os resultados estruturados ao arquivo bills.csv no diretório para garantir a persistência dos dados. Todo o processo é encadeado, semelhante à colaboração entre agentes inteligentes: o modelo visual atua como os "olhos" e o modelo de extração como o "cérebro". Se estiver processando arquivos existentes, isso pode ser habilitado por meio de argumentos de linha de comando. Endereço de código aberto:

Thread de meng shao (@shao__meng)

Informações do autor

Conteúdo da thread