죄송합니다, 특대 사이즈만 있습니다! GLM-4.7 테스트 완료! 이 테스트는 GLM-4.7의 프로그래밍 기능, 에이전트/툴콜 기능 및 장기 컨텍스트 리콜 기능을 다루었으며, 새로 출시된 GLM 4.7에 대한 테스트 결과를 제시합니다. 실리콘 기반 라이더 테스트는 에이전트의 기능을 검증하는 것으로, 대규모 모델이 도구를 사용하여 라이더가 음식을 픽업하고 배달하는 상황을 시뮬레이션하는 간단한 과정입니다. GLM 4.7은 24시간 동안 300회에 걸쳐 진행된 극한 음식 배달 테스트에서 총 354회의 툴 호출을 실행하여 571.91위안의 매출을 달성했습니다. 이 테스트는 컨텍스트 공간의 약 50%를 사용했으며, 10만 회 호출을 초과한 후에야 작동이 중단되었습니다. 에이전트 테스트는 모델이 단일 세션 내에서 여러 도구를 호출할 수 있는 기능 덕분에 효율성 면에서 새로운 최고치를 달성했습니다. 이는 시간을 절약하고 가장 유익한 솔루션을 선택할 수 있도록 해줍니다. 그다음은 호그와트 시험인데, 이는 긴 문맥에서 정보를 기억해내는 능력을 평가합니다. 간단히 말해, 긴 문맥 속에서 맥락을 기억하고 질문에 정확하게 답하는 능력을 시험하는 것입니다. GLM 4.7은 192,000건 미만의 주문에 대해 91%~100%의 리콜률을, 200,000건 미만의 주문에 대해서는 95%의 리콜률을 달성하여 매우 우수한 리콜 성능을 보여주었습니다. 마지막으로 프로그래밍 능력 테스트 결과를 살펴보면, 가장 눈에 띄는 변화는 파티클 효과, 모델링, 조명, 특히 공간 표현 능력의 상당한 향상입니다. 물론 성능 문제는 여전히 존재하며, 다음 버전에서는 생성된 코드의 성능 최적화에 중점을 두기를 바랍니다. 요약하자면, GLM 4.7은 모든 면에서 상당한 개선을 이루었으며, 주요 프로그래밍 모델로서 확실히 적합합니다. LMArena 및 SWE-bench와 같은 프로그래밍 테스트에서 최첨단(SOTA) 성능을 달성했습니다. 하지만 테스트 중에 API 속도가 일정하지 않고, 어떤 때는 빠르고 어떤 때는 느린 것을 발견했습니다. 혹시 모두 새 버전을 사용하고 있어서 그런 걸까요? 공식 개발팀에서 조만간 더 많은 기기를 지원해주길 바랍니다. #GLM47 #ZhipuAI #ZhipuGLM #AIAgent #AIProgramming #대형모델 #OpenSource #KCORESLargeModelArena
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.