X (Twitter)

A Tencent acaba de disponibilizar em código aberto seu mais recente OCR nativo de ponta a ponta: o HunyuanOCR, 1B, com uma pontuação de 94,1 no OmniDocBench, superando o DeepSeek OCR e o Gemini 3 Pro. A funcionalidade abrange todos os cenários, incluindo detecção de texto, processamento complexo de documentos, extração de legendas de vídeo e tradução completa de fotos. Detecção de texto, com suporte para Street View, escrita à mão, fontes artísticas, anúncios, faturas, capturas de tela, etc. Processamento complexo de documentos: Exportação direta de tabelas/fórmulas para HTML/LaTeX A tradução completa de fotos é compatível com 14 idiomas. #OCR #HunyuanOCR

github：github.com/Tencent-Hunyua… HF：huggingface.co/tencent/Hunyua…

github：https://t.co/sBhWJoKHAS
HF：https://t.co/PgMlNQ3AQj

Thread de AIGCLINK (@aigclink)

Informações do autor

Conteúdo da thread