手書きのメモを写真に撮った後に編集可能なデジタル文書に変換する場合、従来の OCR ではテキストの内容しか認識できず、手書きの情報は失われます。また、専門的な手書きタブレットでは追加の機器が必要になります。 最近、GitHubでGoogleのオープンソースの手書き変換システム「InkSight」を見つけました。手書きメモの写真をベクター手書きに変換でき、筆跡をそのまま残しながら編集や検索もできます。 Visual Transformer (ViT) と mT5 エンコード/デコード アーキテクチャに基づいて、モデルは「読み取り」と「書き込み」の両方を通じてトレーニングされ、手書きのコンテンツを理解し、書き込みプロセスを再現します。 GitHub: https://t.co/5NqqdA8xRv 多言語認識に対応し、様々な背景や筆跡に対応し、単語レベルとページ全体のテキスト変換モードを備えています。出力はベクター形式のデジタル手書きで、直接編集、検索、メモ作成アプリケーションへのインポートが可能です。 Hugging Face では、オンライン デモと完全なデータセット、およびローカルでの展開と実行をサポートする Jupyter サンプル コードが提供されています。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
