Si desea convertir una nota escrita a mano en un documento digital editable después de tomar una foto, el OCR convencional solo puede reconocer el contenido del texto y perder la información de escritura a mano, mientras que una tableta de escritura a mano profesional requiere equipo adicional. Recientemente descubrí InkSight, un sistema de conversión de escritura a mano de código abierto de Google, en GitHub. Puede convertir fotos de notas manuscritas en escritura vectorial, conservando la trayectoria de escritura y permitiendo la edición y la búsqueda. Basado en la arquitectura de codificación/decodificación Visual Transformer (ViT) y mT5, el modelo se entrena tanto a través de la "lectura" como de la "escritura" para comprender contenido escrito a mano y reproducir el proceso de escritura. GitHub: https://t.co/5NqqdA8xRv Admite reconocimiento multilingüe, admite diversos fondos y estilos de escritura a mano, y ofrece conversión de texto a nivel de palabra y a página completa. El resultado es escritura digital en formato vectorial, que puede editarse, buscarse o importarse directamente a aplicaciones de notas. Hay una demostración en línea y un conjunto de datos completo disponibles en Hugging Face, junto con el código de muestra de Jupyter adjunto, que admite la implementación y ejecución local.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
