X (Twitter)

텐센트는 최신 네이티브 엔드투엔드 OCR인 HunyuanOCR을 오픈 소스로 공개했습니다. OmniDocBench 점수는 94.1로 DeepSeek OCR과 Gemini 3 Pro를 앞지르며 1B를 기록했습니다. 이 기능은 텍스트 감지, 복잡한 문서 처리, 비디오 자막 추출, 종단 간 사진 번역을 포함한 모든 시나리오를 포괄합니다. 텍스트 감지, 거리 보기 지원, 손글씨, 예술적 글꼴, 광고, 송장, 스크린샷 등 복잡한 문서 처리: 표/수식을 HTML/LaTeX로 직접 출력 14개 언어를 지원하는 엔드투엔드 사진 번역 #OCR #훈위안OCR

깃허브: htgithub.com/Tencent-Hunyua…HF: huggingface.co/tencent/Hunyua…

깃허브: https://t.co/sBhWJoKHAS
HF: https://t.co/PgMlNQ3AQj

AIGCLINK(@aigclink)의 스레드

작성자 정보

스레드 내용