Baidu는 ERNIE-4.5-VL-28B-A3B 모델의 Thinking 버전을 오픈 소스로 공개했습니다. 다중 모달 이해와 교차 모달 추론 능력을 향상시키는 데 중점을 둡니다. 이 방법의 장점은 효율적인 모델 구조 설계와 강화 학습 전략을 통해 비교적 작은 매개변수 규모로 고정밀 시각적 이해와 복잡한 추론을 달성하는 데 있습니다. 자체 테스트 결과, 대부분의 다중 모드 이해 지표가 Gemini-2.5-Pro 및 GPT-5-High 모델의 지표와 유사한 것으로 나타났습니다. 문서/차트 이해 과제는 목표치를 초과 달성했습니다. 이번 업데이트에는 이전 O3와 유사한 "이미지로 생각하기" 기능이 도입되었습니다. 이 모델은 이미지를 자동으로 확대, 축소, 잘라내어 이미지 세부 정보를 파악하고 시각적 추론을 수행할 수 있습니다. 며칠 전의 OCR 모델부터 현재의 ERNIE-4.5-VL-28B-A3B Thinking까지, 바이두는 방향과 강점을 찾은 듯합니다. 현재 국내 멀티모달 분야는 경쟁이 심하지 않고, 좋은 멀티모달 모델도 많지 않습니다. 모두가 코드 개발에 집중하는 가운데, 멀티모달 개발은 훌륭하게 수행하고 있습니다. 이 모델은 HuggingFace, GitHub, PaddlePaddle 커뮤니티에서 출시되었으며, 가중치와 추론 코드가 공개되었습니다.
모델 다운huggingface.co/baidu/ERNIE-4.…WBRr
