다음은 화면 녹화본을 사용하여 동적 웹사이트를 생성하는 테스트였습니다. 이 테스트에서 OCR 기능은 매우 우수했습니다. 웹페이지의 텍스트는 재현할 수 있었지만, 텍스트 애니메이션은 재현하지 못했습니다. 따라서 집중적인 교육이 필요할 것으로 예상됩니다. 다음은 기린과 영양이 있는 이미지를 사용한 객체 라벨링 테스트였습니다. 이 이미지는 수많은 산만 요소 때문에 신중하게 선택되었습니다. 예를 들어, 오른쪽 기린은 두 개의 목이 거의 겹쳐져 있어 오인하기 쉽습니다. 또한, 아래 두 영양은 기린에 가려져 있지만 머리와 꼬리는 여전히 연결되어 있습니다. 모델이 포유류의 신체 구조를 이해하지 못하면 오인하기 쉽습니다. 이 테스트에서 기린은 완벽하게 식별되었지만, 영양 한 마리는 누락되었습니다. 이는 이 테스트에서 수행할 수 없었던 이전 GLM-4.5V에 비해 개선된 것입니다. 다음은 웹사이트 시뮬레이션 테스트였습니다. 하지만 모두가 전통적인 웹사이트 시뮬레이션에 지쳐 있다고 생각해서 이번에는 화학 실험 이미지를 사용하여 난이도를 높였습니다. GLM-4.6V를 사용하여 three.js를 사용하여 화학 실험을 모델링하고 시뮬레이션했습니다. 물 전기분해 실험은 잘 수행되었고, 배터리를 제외한 모든 것이 정확하게 재현되었습니다. 그다음에는 산소를 생성하기 위한 가열이라는 복잡한 장면이 이어졌습니다. 여기서 중요한 점은 모든 실험 기구는 재현되었지만, 공간 위치가 정확하지 않았다는 것입니다. 하지만 머리가 큰 모델이라 하더라도 이 테스트는 어려운 편이므로, 충분히 이해할 수 있습니다.
마지막으로 지식 테스트가 있었습니다. 멀티미터 이미지를 받은 GLM-4.6V는 대형 모델의 배터리 용량을 어떻게 테스트해야 하는지 질문받았습니다. GLM-4.6V에서는 이 문제도 전혀 없었습니다. 이는 GLM-4.6V의 또 다른 주요 장점입니다. 충분한 파라미터를 통해 뛰어난 지식을 얻을 수 있습니다. 이전에는 GLM-4.5V로 테스트할 때 마작에서 이기는 패를 식별할 수도 있었습니다. 요약하자면, 몇 달 전 GLM-4.5V와 비교했을 때, 이번 버전은 지속적인 성능 향상을 보여주어 이전에는 불가능했던 테스트가 가능해졌습니다. 또한, Agent/MCP 기능을 추가하여 도구를 사용하여 작업을 완료할 수 있게 되었고, 모델의 적용 시나리오가 크게 확장되었습니다. 하지만 테스트에서 복잡한 시나리오를 처리하기 위해서는 추가적인 개선이 필요합니다. 다음 업데이트를 기대해 주세요! 또한, Zhipu는 GLM 코딩 플랜에 GLM-4.6V를 포함시켰으며, 가격은 GLM-4.5V의 절반으로, 멀티모달 프로그래밍 작업을 훨씬 더 쉽게 사용할 수 있게 되었습니다! #GLM #GLM46V #지푸AI #VLM





