Tencent は、最新のネイティブ エンドツーエンド OCR である HunyuanOCR、1B をオープンソース化しました。OmniDocBench スコアは 94.1 で、DeepSeek OCR および Gemini 3 Pro を上回りました。 この機能は、テキスト検出、複雑なドキュメント処理、ビデオの字幕抽出、エンドツーエンドの写真翻訳など、あらゆるシナリオをカバーします。 テキスト検出、ストリートビュー、手書き、芸術的なフォント、広告、請求書、スクリーンショットなどをサポートします。 複雑なドキュメント処理: 表/数式をHTML/LaTeXに直接出力 エンドツーエンドの写真翻訳は14の言語をサポート #OCR #HunyuanOCR
github:github.com/Tencent-Hunyua… HF:huggingface.co/tencent/Hunyua…

