X (Twitter)

Acabo de comprobar los últimos resultados de la prueba SWE-Benchverified y ¡MiniMax-M2 se ha convertido en el modelo de peso abierto con mayor puntuación! Minimax M2 es actualmente el rey de los modelos de código abierto, con sólidas capacidades de agente. Sin embargo, la documentación oficial indica que las pruebas consumieron muchos tokens. No obstante, su capacidad para gestionar tareas largas es realmente excepcional, manteniendo la estabilidad incluso con más de 200 pasos. La versión de razonamiento de Deepseek v3.2 le sigue de cerca, con un precio increíblemente bajo, aunque es un poco lenta. Si no tienes prisa, su relación calidad-precio es inmejorable. Puedes lograr excelentes resultados en unos 100 pasos. El GLM 4.6 ofrece un excelente rendimiento en esta ocasión, ofreciendo alta velocidad, un precio bajo y un buen rendimiento, lo que lo convierte en uno de los mejores en cuanto a relación calidad-precio. Está prácticamente a la par del codificador qwen3 480b a35b, pero con un tiempo de respuesta mucho más rápido. En general, los modelos de código abierto están progresando con bastante rapidez. Aunque aún están por detrás de los modelos de código cerrado como Gemini 3 Pro y Claude 4.5 Opus, se están poniendo al día constantemente con los principales modelos comerciales. #SWEBench #AIEvaluation #LargeModel #Minimax #DeepSeek #GLM #OpenSourceModel #AIPerformance #CodeGeneration

Hilo de karminski-牙医 (@karminski3)

Información del autor

Contenido del hilo