[Recommandation Open Source] DeepOCR : Reproduit le modèle DeepSeek-OCR basé sur le framework VILA. Son innovation principale réside dans l’obtention d’un traitement de texte efficace grâce à une technologie de compression visuelle. Problèmes et solutions principaux : Point faible : Lorsque de grands modèles de langage traitent de longs textes, la complexité de calcul augmente de façon quadratique avec la longueur de la séquence, ce qui entraîne une faible efficacité. • Approche novatrice : le texte est converti en images et compressé à l’aide d’un encodeur visuel, ce qui permet d’obtenir un taux de compression de 7 à 20 fois. Cela revient à transformer la lecture d’un texte en visionnage d’images, en transmettant le même contenu avec moins d’informations. Le projet d'architecture technique adopte une conception à trois niveaux, avec un total d'environ 380 millions de paramètres : 1. DeepEncoder (Noyau d'encodage visuel) • Encodeur SAM (80 millions de paramètres) : Traite des images haute résolution de 1024 × 1024 pixels à l’aide d’un mécanisme d’attention par fenêtre, produisant 4096 étiquettes de caractéristiques. • Compresseur convolutionnel 16× : Réduit le nombre d’étiquettes de 4096 à 256 grâce à deux couches convolutionnelles, diminuant ainsi considérablement le coût de calcul. • Encodeur CLIP (300 millions de paramètres) : Effectue une interprétation sémantique globale des caractéristiques compressées. La conception astucieuse consiste à utiliser l'attention de fenêtre de SAM pour contrôler la surcharge de mémoire, puis à utiliser l'attention globale de CLIP pour extraire la sémantique après la compression, évitant ainsi l'explosion de mémoire causée par le traitement direct d'images haute résolution. 2. Projecteur multimodal : Cartographie des caractéristiques visuelles de 2048 dimensions dans un espace de modèle de langage ; utilise des sauts de ligne et des délimiteurs pour aider le modèle à comprendre la structure spatiale d'un document. 3. Le décodeur de langue utilise le modèle Qwen2-7B (la version originale utilise DeepSeek-3B-MoE) et est responsable de la génération du texte final. La méthode de formation utilise une stratégie de formation en deux étapes : Phase 1 : Alignement visuel-langage (1 tour) • Données : 595 000 paires image-texte • Objectif de l’entraînement : Apprendre au projecteur à associer une image à un texte. Phase 2 : Pré-formation spécifique à la reconnaissance optique de caractères (1 tour) • Données : 260 000 documents PDF et images • Objectif de l’entraînement : Optimiser le projecteur et le modèle de langage, figer l’encodeur visuel Performance 1. Points forts : • Reconnaissance de texte en anglais : Distance d’édition de 0,093, performances excellentes. • Traitement simple de documents : Taux de précision de 99,5 %. • Analyse de la structure du tableau : Score de 70,3, excellente capacité de compréhension spatiale • Efficacité du balisage : Utilisation de seulement 250 balises visuelles environ, soit un gain de temps de 15 fois par rapport aux méthodes traditionnelles 2. Axes d'amélioration : • Documents à mise en page complexe (ex. : articles universitaires à plusieurs colonnes) : 51,2 points • Reconnaissance de formules mathématiques : Performances faibles, contenu mathématique insuffisant dans les données d’entraînement • Documents en chinois : Écart par rapport aux documents en anglais Les projets à valeur pratique offrent aux chercheurs : • Implémentation open source complète : incluant scripts d’entraînement, outils d’évaluation et points de contrôle pré-entraînés. • Validation de l’architecture : démonstration de la faisabilité de la technologie de compression visuelle pour les tâches de reconnaissance optique de caractères (OCR). • Outils prêts à l’emploi : compatibles avec divers scénarios d’application tels que l’extraction de texte, la conversion Markdown et l’analyse de graphiques. Limites et perspectives d'avenir : Les limitations actuelles proviennent principalement des ressources et des données de formation. • Une seule époque d'entraînement, convergence incomplète. • Données d'entraînement (260 000 échantillons) inférieures à celles des modèles les plus performants (plus d'un million). • Manque de contenu mathématique et de documents historiques de numérisation. • Les pistes d'amélioration incluent l'augmentation des données, l'introduction de l'apprentissage par renforcement et l'optimisation de la conception des mots clés, ce qui pourrait théoriquement améliorer les performances de 17 points de pourcentage. Adresse du projet
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
![[Recommandation Open Source] DeepOCR : Reproduit le modèle DeepSeek-OCR basé sur le framework VILA. Son innovation princ](https://pbs.twimg.com/media/G5M7TtBaAAA1_kD.jpg)