X (Twitter)

바이두가 새로운 VLM 모델을 출시했습니다. 요약은 다음과 같습니다. ERNIE-4.5-VL-28B-A3B-Thinking 멀티모달 모델은 총 28개의 매개변수를 가지고 있지만 MoE 아키텍처를 채택했기 때문에 실제 활성화 매개변수는 3B에 불과해 매우 가볍습니다. 중요한 점은 성능이 매우 강력하다는 점인데, 여러 벤치마크 테스트에서 최상위 플래그십 모델의 성능에 근접했습니다. 이 모델의 주요 특징은 다음과 같습니다. 시각적 추론: 우리는 이전에 이것을 꽤 많이 시연했습니다. 시각적 추론은 이미지 요소를 식별할 수 있을 뿐만 아니라 내용을 추론할 수도 있습니다. STEM 추론: 수학, 물리 등 사진 기반 문제 해결 과제를 처리하는 데 유용합니다. 시각적 위치 파악: 더욱 정확한 위치 파악 기능과 유연한 명령 실행 기능을 제공합니다. 이미지 기반 사고: 모델은 사람처럼 사고하여 이미지를 자유롭게 확대/축소하여 모든 세부 사항을 파악할 수 있습니다. 도구 사용: 이미지 검색 및 기타 기능을 사용하여 롱테일 지식을 식별할 수 있습니다. - 비디오 이해: 다양한 시간대에 걸쳐 비디오의 콘텐츠 변경 사항을 식별합니다. 현재 vLLM을 포함한 다양한 배포 방식을 지원합니다. 하지만 Space 공식 데모는 아직 직접 테스트용으로 출시되지 않았습니다. 잠시 기다려 주세요. 관심 있으시면 나중에 테스트해 보겠습니다. 모델 주소:

자세한 데이터

상세 데이터 2

karminski-牙医(@karminski3)의 스레드

작성자 정보

스레드 내용