Lo sentimos, ¡solo tenemos la talla extragrande! ¡Probado con GLM-4.7! Esta prueba cubrió las capacidades de programación de GLM-4.7, las capacidades de Agent/ToolCall y las capacidades de recuperación de contexto largo, presentando los resultados de la prueba para el recién lanzado GLM 4.7: La prueba del conductor basada en silicio, que examina las capacidades del agente, simplemente implica hacer que un modelo grande use herramientas para simular un conductor que recoge y entrega alimentos. GLM 4.7 obtuvo ingresos de 571,91 yuanes en una prueba extrema de entrega de alimentos de 24 horas y 300 rondas, ejecutando un total de 354 llamadas a herramientas. La prueba utilizó aproximadamente el 50 % del espacio de contexto y solo dejó de funcionar tras superar los 100 000. La prueba del Agente alcanzó un nuevo máximo en eficiencia, gracias a la capacidad del modelo de iniciar múltiples llamadas a herramientas dentro de una sola sesión, ahorrando tiempo y permitiendo la selección de la solución más beneficiosa. Luego viene el Test de Hogwarts, que evalúa tu capacidad para recordar información de contextos extensos. En pocas palabras, evalúa tu capacidad para recordar el contexto y responder preguntas con precisión dentro de un contexto extenso. GLM 4.7 logró una tasa de recuperación del 91% al 100% para pedidos inferiores a 192K, y del 95% para pedidos inferiores a 200K, lo que demuestra un muy buen desempeño de recuperación. Finalmente, al analizar la prueba de capacidad de programación, la principal conclusión es la mejora en los efectos de partículas, el modelado y la iluminación, especialmente la mejora significativa de las capacidades espaciales. Por supuesto, aún existen problemas de rendimiento, y esperamos que la próxima versión se centre en optimizar el rendimiento del código generado. En resumen, GLM 4.7 representa una mejora significativa en todos los aspectos y es, sin duda, el modelo de programación principal. Ha alcanzado un rendimiento de vanguardia (SOTA) en pruebas de programación como LMArena y SWE-bench. Sin embargo, debo decir que durante las pruebas, noté que la velocidad de la API era inconsistente, a veces rápida y a veces lenta. ¿Será porque todos usan la nueva versión? Espero que el equipo oficial añada más máquinas pronto. #GLM47 #ZhipuAI #ZhipuGLM #AIAgent #AIProgramming #LargeModel #OpenSource #KCORESLargeModelArena
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.