[오픈소스 모델] NVIDIA Nemotron Parse v1.1: 문서 파싱을 위해 특별히 설계된 NVIDIA의 최신 시각 언어 모델(VLM)입니다. 10억 개 미만의 매개변수를 사용하는 고도로 전문화된 "문서 이해 에이전트"이지만, PDF, PPT 스크린샷, 스캔한 문서 등 복잡하게 구성된 문서 이미지에서 구조화된 콘텐츠와 공간적 위치(경계 상자) 및 의미 범주를 정확하게 추출할 수 있습니다. 핵심 역량 1. 읽기 순서 출력: 단순히 무작위 순서로 텍스트를 출력하는 기존 OCR과 달리, 사람이 읽는 순서(위에서 아래로, 왼쪽에서 오른쪽)에 따라 콘텐츠를 구성합니다. 2. 좌표를 이용한 구조적 추출: 일반 텍스트(제목, 문단, 각주 등의 의미 분류 지원) • 표(행 및 열 범위를 처리하여 LaTeX 또는 Markdown 형식으로 직접 내보낼 수 있음) • 수학 공식(LaTeX 형식) • 이미지, 차트, 머리글, 바닥글과 같은 요소에 대한 경계 상자 및 범주. 3. 기계가 읽기 쉬운 출력 형식: 좌표를 포함한 Markdown + LaTeX를 직접 생성하므로 나중에 대규모 모델이나 데이터베이스에 쉽게 입력할 수 있습니다. 주요 혁신: 기존 OCR(Tesseract, PaddleOCR 등)은 복잡한 레이아웃, 다국어 텍스트, 표 변환을 처리할 때 오류가 발생하기 쉽습니다. 많은 시각적 모델(예: LayoutLM 및 Donut)은 분류나 간단한 추출만 수행할 수 있으며, 정확한 좌표나 완전한 LaTeX 표를 출력하지 않습니다. Nemotron Parse v1.1은 강력한 ViT-H 시각적 인코더와 mBart 스타일 디코더를 결합하여 한 단계로 "텍스트 콘텐츠 + 위치 + 의미 범주"를 예측합니다. 특히 기업 수준 시나리오에 적합합니다: 계약, 재무 보고서, 학술 논문, PowerPoint 프레젠테이션의 자동 처리. 기술 아키텍처 개요: Visual Encoder: C-RADIO(ViT-H 기반) • 적응 계층: 1D 합성곱 + 정규화 • 언어 디코더: 10층 mBart 구조 • 입력: RGB 이미지(권장 해상도 1024×1280 ~ 1648×2048) + 간단한 프롬프트 • 출력: 일반 텍스트 문자열(특별히 표시된 경계 상자, 범주, 마크다운/LaTeX 콘텐츠 포함) 성능 및 제한 사항: 테이블 추출, 수식 인식, 레이아웃 이해 부문에서 공개 및 내부 벤치마크에서 기존 오픈소스 솔루션보다 훨씬 우수한 성능을 보입니다. • 제한 사항: NVIDIA GPU(Hopper/Ampere/Turing 아키텍처)에서 가장 잘 실행되고, 다양한 입력 해상도 요구 사항이 있으며, 매우 흐릿하거나 손으로 쓴 문서의 경우 성능이 저하됩니다(하지만 대부분의 OCR보다 우수합니다). 온라인 모델 주소:
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
![[오픈소스 모델] NVIDIA Nemotron Parse v1.1: 문서 파싱을 위해 특별히 설계된 NVIDIA의 최신 시각 언어 모델(VLM)입니다. 10억 개 미만의 매개변수를 사용하는 고도로 전문화된 "문서 이](https://pbs.twimg.com/media/G6PWFvDaMAAoSHU.jpg)