[Recomendação de código aberto] DeepOCR: Reproduz o modelo DeepSeek-OCR com base na estrutura VILA. Sua principal inovação reside na obtenção de processamento de texto eficiente por meio da tecnologia de compressão visual. Principais Problemas e Soluções: Ponto Crítico: Quando grandes modelos de linguagem processam textos longos, a complexidade computacional aumenta quadraticamente com o comprimento da sequência, resultando em baixa eficiência. • Abordagem inovadora: Renderizar texto em imagens e comprimi-las usando um codificador visual, alcançando uma taxa de compressão de 7 a 20 vezes. Isso equivale a transformar "ler um texto" em "ver imagens", transmitindo o mesmo conteúdo com menos informação. O projeto de arquitetura técnica adota um design de três níveis, com um total de aproximadamente 380 milhões de parâmetros: 1. DeepEncoder (Núcleo de Codificação Visual) • Codificador SAM (80 milhões de parâmetros): Processa imagens de alta resolução de 1024×1024 usando um mecanismo de atenção em janela, gerando 4096 rótulos de características. • Compressor Convolucional 16×: Comprime o número de rótulos de 4096 para 256 por meio de duas camadas convolucionais, reduzindo significativamente o custo computacional. • Codificador CLIP (300 milhões de parâmetros): Realiza a compreensão semântica global das características comprimidas. O design inteligente reside em usar a atenção de janela do SAM para controlar a sobrecarga de memória e, em seguida, usar a atenção global do CLIP para extrair a semântica após a compressão, evitando assim a explosão de memória causada pelo processamento direto de imagens de alta resolução. 2. Projetor Multimodal: Mapeia características visuais de 2048 dimensões para um espaço de modelo de linguagem; usa quebras de linha e delimitadores para ajudar o modelo a entender a estrutura espacial de um documento. 3. O decodificador de linguagem utiliza o modelo Qwen2-7B (a versão original utiliza o DeepSeek-3B-MoE) e é responsável pela geração final do texto. O método de treinamento emprega uma estratégia de treinamento em duas etapas: Fase 1: Alinhamento Visual-Linguístico (1 rodada) • Dados: 595.000 pares gerais de imagem e texto • Objetivo do treinamento: Treinar apenas o projetor para aprender o mapeamento básico de visão para linguagem Fase 2: Pré-treinamento específico para OCR (1 rodada) • Dados: 260.000 documentos PDF e imagens • Objetivo do treinamento: Ajustar o projetor e o modelo de linguagem, congelar o codificador visual Desempenho 1. Pontos fortes: • Reconhecimento de texto em inglês: Distância de edição de 0,093, excelente desempenho. • Processamento simples de documentos: Taxa de precisão de 99,5%. • Análise da estrutura da tabela: Pontuação 70,3, forte capacidade de compreensão espacial • Eficiência da etiquetagem: Apenas cerca de 250 etiquetas visuais são utilizadas, representando uma economia de 15 vezes em comparação com os métodos tradicionais 2. Áreas para melhoria: • Documentos com layout complexo (por exemplo, artigos acadêmicos com várias colunas): 51,2 pontos • Reconhecimento de fórmulas matemáticas: Desempenho fraco, conteúdo matemático insuficiente nos dados de treinamento • Documentos em chinês: Lacuna em comparação com documentos em inglês Os projetos de valor prático proporcionam aos pesquisadores: • Implementação completa de código aberto: incluindo scripts de treinamento, ferramentas de avaliação e pontos de verificação pré-treinados. • Validação da arquitetura: demonstrando a viabilidade da tecnologia de compressão visual em tarefas de OCR. • Ferramentas prontas para uso: compatíveis com diversos cenários de aplicação, como extração de texto, conversão de Markdown e análise de gráficos. Limitações e perspectivas futuras: As limitações atuais decorrem principalmente dos recursos de treinamento e dos dados disponíveis. • Apenas uma época de treinamento, sem convergência completa. • Os dados de treinamento (260.000 amostras) são inferiores aos dos modelos de ponta (mais de 1 milhão). • Falta conteúdo matemático e documentos históricos digitalizados. • As direções para melhoria incluem aumento de dados, introdução de aprendizado por reforço e otimização da engenharia de palavras-chave, o que, teoricamente, poderia melhorar o desempenho em 17 pontos percentuais. Endereço do projeto
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
![[Recomendação de código aberto] DeepOCR: Reproduz o modelo DeepSeek-OCR com base na estrutura VILA. Sua principal inovaç](https://pbs.twimg.com/media/G5M7TtBaAAA1_kD.jpg)