El ajuste fino de conjuntos de datos personalizados con VLM pequeños es aproximadamente equivalente a GPT-5, ¡pero 50 veces más económico! Consejos prácticos para ingenieros de IA de @paulabartabajo, miembro de @LiquidAI. El mensaje principal destaca que, para tareas o dominios específicos, el uso de pequeños modelos de lenguaje visual (VLM) y su ajuste con conjuntos de datos personalizados puede lograr una precisión comparable a la de grandes modelos de propósito general (como GPT-5), reduciendo significativamente los costos (aproximadamente 50 veces). Esto refleja el principio de eficiencia en el desarrollo de IA: los modelos más pequeños suelen ser más económicos y fáciles de implementar en escenarios especializados, y el ajuste permite una optimización del rendimiento precisa, evitando el desperdicio de recursos que implican los modelos grandes. Este proyecto de código abierto incluye diversos tutoriales, ejemplos y aplicaciones desarrolladas con el modelo Liquid AI Foundation (LFM) y el SDK de LEAP. Muestra cómo crear un flujo de trabajo de agente localizado para el análisis automático de documentos de facturas. Se centra en la privacidad de los datos, ya que todo el proceso se ejecuta en el equipo local del usuario, sin necesidad de servicios en la nube ni claves API. Crea una interfaz de línea de comandos (CLI) sencilla en Python que supervise los nuevos archivos de facturas (normalmente en formatos de imagen como PNG o JPEG) en una carpeta específica y extraiga información estructurada como el importe y la moneda. Los resultados extraídos se añaden a un archivo CSV para su posterior análisis o registro. Este flujo de trabajo es adecuado para procesar facturas diarias, lo que demuestra el potencial de un modelo de lenguaje local pequeño en tareas reales. Según las pruebas, procesó correctamente aproximadamente el 75 % de las facturas de muestra, lo que destaca la practicidad del modelo y su potencial de mejora. Tecnologías y modelos clave: @ollama: Un marco para ejecutar y administrar modelos de lenguaje localmente, que admite una inferencia de modelos eficiente. uv: Un gestor de paquetes de Python de alta eficiencia para manejar dependencias y la ejecución de scripts, mejorando la eficiencia del desarrollo. • LFM2-VL-3B: Modelo de lenguaje visual de Liquid AI, responsable de extraer descripciones de texto sin procesar de imágenes de facturas, incluyendo funcionalidad OCR. • LFM2-1.2B-Extract: Otro modelo de Liquid AI dedicado a convertir texto no estructurado en registros de datos estructurados, como campos de cantidad y moneda en formato JSON. Todos estos modelos son pequeños (de tamaño nanométrico) y pueden funcionar con hardware común, lo que destaca su rentabilidad y su implementación local. La estructura del código y el principio de funcionamiento se encuentran principalmente en src/invoice_parser/main.py, empleando un diseño modular para facilitar su expansión. El flujo de trabajo consta de los siguientes pasos: 1. Monitoreo de archivos: La herramienta monitorea continuamente un directorio especificado (como facturas/) para detectar archivos de facturas recién agregados. 2. Extracción de texto: Una vez que se detecta un nuevo archivo, el modelo LFM2-VL-3B procesa la imagen y genera la descripción de texto original (por ejemplo, reconoce contenido como "Total: $100 USD"). 3. Estructuración de la información: El texto extraído se pasa al modelo LFM2-1.2B-Extract, que utiliza ingeniería de solicitud para convertir el texto en datos estructurados, como {"amount": 100, "currency": "USD"}. 4. Almacenamiento de datos: Añada los resultados estructurados al archivo bills.csv en el directorio para garantizar la persistencia de los datos. Todo el proceso está encadenado, de forma similar a la colaboración de agentes inteligentes: el modelo visual actúa como los "ojos" y el modelo de extracción actúa como el "cerebro". Si se procesan archivos existentes, esto se puede habilitar mediante argumentos de línea de comandos. Dirección de código abierto:
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
