X (Twitter)

사진을 찍은 후 손으로 쓴 메모를 편집 가능한 디지털 문서로 변환하려는 경우, 기존 OCR은 텍스트 내용만 인식하고 손으로 쓴 정보는 삭제하는 반면, 전문적인 필기용 태블릿을 사용하려면 추가 장비가 필요합니다. 최근 GitHub에서 Google의 오픈소스 필기 변환 시스템인 InkSight를 발견했습니다. 이 시스템은 필기 노트 사진을 벡터 필기로 변환하여 필기 경로를 그대로 유지하면서 편집 및 검색 기능을 지원합니다. Visual Transformer(ViT)와 mT5 인코딩/디코딩 아키텍처를 기반으로 하는 이 모델은 손으로 쓴 내용을 이해하고 쓰기 과정을 재현하기 위해 "읽기"와 "쓰기"를 통해 훈련됩니다. GitHub: https://t.co/5NqqdA8xRv 다국어 인식을 지원하고, 다양한 배경과 필기 스타일을 처리할 수 있으며, 단어 단위 및 전체 페이지 텍스트 변환 모드를 모두 제공합니다. 출력된 파일은 벡터 형식의 디지털 필기로, 직접 편집, 검색 또는 노트 필기 애플리케이션으로 가져올 수 있습니다. Hugging Face에서는 온라인 데모와 전체 데이터 세트를 사용할 수 있으며, 로컬 배포와 실행을 지원하는 Jupyter 샘플 코드도 함께 제공됩니다.

GitHubDaily(@GitHub_Daily)의 스레드

작성자 정보

스레드 내용