X (Twitter)

지푸는 방금 GLM-4.6V를 오픈 소스로 공개했는데, 이 툴의 핵심 기능은 "이미지 해석"을 "이미지 기반 행동"으로 변환하는 것입니다. 과거에는 다중 모드 모델이 주로 이미지 콘텐츠를 설명했습니다. GLM-4.6V는 도구 호출을 시각적 모델에 직접 통합하고, 이미지 자체가 명령 매개변수 역할을 합니다. 예를 들어, 거리 사진이 주어지면 자동으로 이미지 검색/가격 비교 API를 호출하고 출처, 가격, 제품 썸네일, 일치도 및 차이점, 구매 링크에 대한 정보가 포함된 쇼핑 가이드를 반환합니다. 프런트엔드 복제 기능도 갖추고 있어, 디자인 초안이 주어지면 픽셀 단위까지 완벽한 고품질 HTML/CSS/JS 코드를 생성할 수 있으며, 스크린샷을 통해 여러 차례의 미세 조정을 지원합니다. 두 가지 버전: GLM-4.6V(106B-A12B), 고성능 클라우드 버전 GLM-4.6V-Flash(9B), 로컬 저지연 버전, 무료로 사용 가능. 128k 시각적 맥락을 지원하는 것은 재무 보고서, 게임, 사용 설명서 전체를 하나의 파일에 담는 것과 같습니다. 또한 페이지 간, 카메라 간 비교 및 요약 기능을 제공하여 반복적으로 스크린샷을 찍고 데이터를 세그먼트별로 입력하는 번거로움을 덜어줍니다. GLM-4.6V의 가격은 GLM-4.5V보다 50% 저렴합니다. API 호출 가격은 입력 토큰 100만 개당 1위안, 출력 토큰 100만 개당 3위안입니다. #GLM46V #스마트스펙트럼GLM

GitHub:github.com/zai-org/GLM-V1 포옹하는 얼굴: hthuggingface.co/collections/za…모다 커뮤니modelscope.cn/collections/GL…2QC 기술 블z.ai/blog/glm-4.6v8sYA

AIGCLINK(@aigclink)의 스레드

작성자 정보

스레드 내용