X (Twitter)

[Recomendación de código abierto] DeepOCR: Reproduce el modelo DeepSeek-OCR basado en el marco VILA. Su principal innovación reside en lograr un procesamiento de texto eficiente mediante tecnología de compresión visual. Problemas y soluciones principales: Punto débil: Cuando los modelos de lenguaje grandes procesan textos largos, la complejidad computacional aumenta cuadráticamente con la longitud de la secuencia, lo que resulta en una baja eficiencia. • Enfoque innovador: Convertir el texto en imágenes y comprimirlas mediante un codificador visual, logrando una tasa de compresión de 7 a 20 veces. Esto equivale a transformar la lectura de texto en visualización de imágenes, transmitiendo el mismo contenido con menos información. El proyecto de arquitectura técnica adopta un diseño de tres niveles, con un total aproximado de 380 millones de parámetros: 1. DeepEncoder (Núcleo de codificación visual) • Codificador SAM (80 millones de parámetros): Procesa imágenes de alta resolución de 1024 × 1024 píxeles mediante un mecanismo de atención por ventanas, generando 4096 etiquetas de características. • Compresor convolucional 16×: Reduce el número de etiquetas de 4096 a 256 mediante dos capas convolucionales, disminuyendo significativamente el coste computacional. • Codificador CLIP (300 millones de parámetros): Realiza un análisis semántico global de las características comprimidas. El ingenioso diseño reside en utilizar la atención de ventana de SAM para controlar la sobrecarga de memoria, y luego utilizar la atención global de CLIP para extraer la semántica después de la compresión, evitando así la explosión de memoria causada por el procesamiento directo de imágenes de alta resolución. 2. Proyector multimodal: mapea características visuales de 2048 dimensiones a un espacio de modelo de lenguaje; utiliza saltos de línea y delimitadores para ayudar al modelo a comprender la estructura espacial de un documento. 3. El decodificador de lenguaje utiliza el modelo Qwen2-7B (la versión original utiliza DeepSeek-3B-MoE) y es responsable de la generación del texto final. El método de entrenamiento emplea una estrategia de entrenamiento en dos etapas: Fase 1: Alineación visual-lingüística (1 ronda) • Datos: 595 000 pares generales de imagen y texto • Objetivo del entrenamiento: Entrenar únicamente el proyector para que aprenda la correspondencia básica entre visión y lenguaje. Fase 2: Pre-entrenamiento específico para OCR (1 ronda) • Datos: 260 000 documentos e imágenes en PDF • Objetivo del entrenamiento: Ajustar el proyector y el modelo de lenguaje, y congelar el codificador visual Actuación 1. Áreas de fortaleza: • Reconocimiento de texto en inglés: Distancia de edición de 0,093, excelente rendimiento. • Procesamiento simple de documentos: Precisión del 99,5 %. • Análisis de la estructura de la tabla: Puntuación de 70,3, excelente capacidad de comprensión espacial. • Eficiencia en el etiquetado: Se utilizan solo unas 250 etiquetas visuales, lo que supone un ahorro de 15 veces en comparación con los métodos tradicionales. 2. Áreas de mejora: • Documentos con diseño complejo (p. ej., artículos académicos con varias columnas): 51,2 puntos • Reconocimiento de fórmulas matemáticas: Rendimiento deficiente, contenido matemático insuficiente en los datos de entrenamiento • Documentos en chino: Desventaja con respecto a los documentos en inglés Los proyectos de valor práctico proporcionan a los investigadores: • Implementación completa de código abierto: incluye scripts de entrenamiento, herramientas de evaluación y puntos de control preentrenados. • Validación de la arquitectura: demuestra la viabilidad de la tecnología de compresión visual en tareas de OCR. • Herramientas listas para usar: compatibles con diversos escenarios de aplicación, como extracción de texto, conversión a Markdown y análisis de gráficos. Limitaciones y direcciones futuras: Las limitaciones actuales se deben principalmente a los recursos de capacitación y los datos. • Solo una época de entrenamiento, sin convergencia completa. • Los datos de entrenamiento (260 000 muestras) son inferiores a los de los modelos de alto nivel (más de 1 millón). • Carece de contenido matemático y documentos históricos escaneados. • Las posibles mejoras incluyen el aumento de datos, la introducción del aprendizaje por refuerzo y la optimización de la ingeniería de palabras clave, lo que teóricamente podría mejorar el rendimiento en 17 puntos porcentuales. Dirección del proyecto

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo