3B 활성화 매개변수만으로 "생각을 위한 이미지 확대"가 가능한 무료 오픈 소스 멀티모달 모델입니다. 웬신의 다중 모드 사고 모델은 오픈 소스로 공개되었으며, 이 모델의 이름은 ERNIE-4.5-VL-28B-A3B-Thinking입니다. 놀랍게도 오픈소스 버전은 Apache-2.0 라이선스를 사용하여 완전한 가중치 및 추론 코드를 제공하며, 상업적 사용에도 적합합니다. 지난 몇 년 동안 대규모 모델 산업은 군비 경쟁과 유사해졌습니다. 매개변수는 점점 더 커지고 컴퓨팅 성능은 점점 더 비싸졌습니다. 실제로 작은 모델은 고유한 장점도 가지고 있습니다. 즉, 배포 비용이 낮고, 추론 속도가 빠르며, 사용 시나리오가 더 다양합니다(예: 모바일 폰에서 실행). 가장 큰 장점은 오픈소스 모델이 "이미지로 사고할 수 있는" 능력을 가지고 있다는 것입니다. 즉, 이미지를 적극적으로 확대/축소하고, 세부 사항에 집중하고, 여러 단계의 추론을 수행할 수 있습니다. 또한 멀티모달 모델이기 때문에 비디오 분석, 텍스트 추출 등의 기능도 지원합니다. 이미지/텍스트/비디오/문서 이해 및 추론과 관련된 작업에서 매우 안정적으로 수행된다고 합니다. 일부 공식 사례는 꽤 괜찮아 보입니다.
이 모델은 HuggingFace, GitHub 및 PaddlePaddle 커뮤니티에 업huggingface.co/baidu/ERNIE-4.…tps://t.cogithub.com/PaddlePaddle/E…pgithub.com/PaddlePaddle/F…tps://t.coaistudio.baidu.com/modelsdetail/3…dle Galaxy 커뮤니티:





