[오픈소스 추천] DeepOCR: VILA 프레임워크를 기반으로 DeepSeek-OCR 모델을 재현합니다. 핵심 혁신은 시각적 압축 기술을 통해 효율적인 텍스트 처리를 달성하는 것입니다. 핵심 문제 및 해결책: 문제점: 대규모 언어 모델이 긴 텍스트를 처리할 때 계산 복잡도는 시퀀스 길이에 따라 2차적으로 증가하여 효율성이 낮아집니다. • 혁신적인 접근 방식: 텍스트를 이미지로 변환하고 시각적 인코더를 사용하여 압축하여 7~20배의 압축률을 달성합니다. 이는 "텍스트 읽기"를 "그림 보기"로 변환하는 것과 같으며, 더 적은 정보로 동일한 내용을 전달합니다. 기술 아키텍처 프로젝트는 총 약 380M 매개변수를 포함하는 3계층 설계를 채택합니다. 1. DeepEncoder(비주얼 인코딩 코어) • SAM 인코더(80M 매개변수): 윈도우 어텐션 메커니즘을 사용하여 1024×1024 고해상도 이미지를 처리하여 4096개의 특징 레이블을 출력합니다. • 16× 합성곱 압축기: 두 개의 합성곱 계층을 통해 레이블 수를 4096개에서 256개로 압축하여 계산 비용을 크게 줄입니다. • CLIP 인코더(300M 매개변수): 압축된 특징에 대한 전역 의미론적 이해를 수행합니다. 이 똑똑한 설계는 SAM의 윈도우 어텐션을 사용하여 메모리 오버헤드를 제어하고, CLIP의 글로벌 어텐션을 사용하여 압축 후 의미를 추출하는 데 있습니다. 이를 통해 고해상도 이미지를 직접 처리함으로써 발생하는 메모리 폭발을 방지할 수 있습니다. 2. 멀티모달 프로젝터: 2048차원 시각적 특징을 언어 모델 공간에 매핑합니다. 줄 바꿈과 구분 기호를 사용하여 모델이 문서의 공간 구조를 이해하도록 돕습니다. 3. 언어 디코더는 Qwen2-7B 모델을 사용하며(원래 버전은 DeepSeek-3B-MoE를 사용함) 최종 텍스트 생성을 담당합니다. 훈련 방법은 2단계 훈련 전략을 채택합니다. 1단계: 시각-언어 정렬(1라운드) • 데이터: 595,000개의 일반 이미지-텍스트 쌍 • 훈련 목표: 프로젝터만 훈련하여 기본적인 시각-언어 매핑을 학습 2단계: OCR 전용 사전 훈련(1라운드) • 데이터: 26만 개의 PDF 문서 및 이미지 • 훈련 목표: 프로젝터 및 언어 모델 미세 조정, 시각 인코더 고정 성능 1. 강점 분야: • 영어 텍스트 인식: 편집 거리 0.093으로 탁월한 성능을 자랑합니다. • 간단한 문서 처리: 정확도 99.5%에 달합니다. • 표 구조 분석: 70.3점, 뛰어난 공간 이해 능력 • 태그 효율성: 약 250개의 시각적 태그만 사용하여 기존 방식 대비 15배의 시간 절약 2. 개선이 필요한 부분: • 복잡한 레이아웃 문서(예: 여러 열로 구성된 학술 논문): 51.2점 • 수학 공식 인식: 성능 저하, 훈련 데이터 내 수학적 내용 부족 • 중국어 문서: 영어 문서 대비 격차 실용적 가치 프로젝트는 연구자들에게 다음과 같은 이점을 제공합니다. • 완전한 오픈소스 구현: 교육 스크립트, 평가 도구, 사전 훈련된 체크포인트 포함 • 아키텍처 검증: OCR 작업에서 시각적 압축 기술의 실현 가능성 입증 • 즉시 사용 가능한 도구: 텍스트 추출, 마크다운 변환, 차트 구문 분석 등 다양한 애플리케이션 시나리오 지원 한계와 미래 방향: 현재의 한계는 주로 교육 리소스와 데이터에서 비롯됩니다. • 학습 에포크가 하나뿐이며 완전히 수렴되지 않았습니다. • 학습 데이터(26만 개 샘플)가 최상위 모델(100만 개 이상)보다 적습니다. • 수학적 내용과 과거 스캔 문서가 부족합니다. • 개선 방향에는 데이터 증강, 강화 학습 도입, 프롬프트 단어 엔지니어링 최적화가 포함되며, 이를 통해 이론적으로 성능을 17%p 향상시킬 수 있습니다. 프로젝트 주소
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
![[오픈소스 추천] DeepOCR: VILA 프레임워크를 기반으로 DeepSeek-OCR 모델을 재현합니다. 핵심 혁신은 시각적 압축 기술을 통해 효율적인 텍스트 처리를 달성하는 것입니다.
핵심 문제 및 해결책:](https://pbs.twimg.com/media/G5M7TtBaAAA1_kD.jpg)