X (Twitter)

Tencent acaba de lanzar al mercado el código abierto de su último OCR nativo de extremo a extremo: HunyuanOCR, 1B, con una puntuación OmniDocBench de 94,1, superando a DeepSeek OCR y Gemini 3 Pro. La funcionalidad cubre todos los escenarios, incluida la detección de texto, el procesamiento de documentos complejos, la extracción de subtítulos de video y la traducción de fotografías de extremo a extremo. La detección de texto admite vistas de calle, escritura a mano, fuentes artísticas, anuncios, facturas, capturas de pantalla y más. Procesamiento de documentos complejos: Salida directa de tablas/fórmulas a HTML/LaTeX La traducción de fotografías de extremo a extremo admite 14 idiomas. #OCR #HunyuanOCR

github:github.com/Tencent-Hunyua…S Ahuggingface.co/tencent/Hunyua…/t.co/PgMlNQ3AQj

github: https://t.co/sBhWJoKHAS
Alta frecuencia: https://t.co/PgMlNQ3AQj

Hilo de AIGCLINK (@aigclink)

Información del autor

Contenido del hilo