X (Twitter)

¡Fiction.LiveBench finalmente se actualizó! En esta ocasión, se actualizaron los resultados de las pruebas de rendimiento de recuperación para los siguientes modelos: deepseek-v3.2-exp [razonamiento: alto], deepseek-v3.2-exp, nemotron-nano-9b-v2:free, qwen-max y qwen3-next-80b-a3b-instruct. Lo que me sorprendió fue que deepseek-v3.2-exp [razonamiento: alto] alcanzó un rendimiento cercano al máximo nivel, con al menos un 83 % de recuperación en 32 000. Este es el mejor resultado que deepseek ha logrado hasta la fecha. Sin embargo, es probable que los resultados para valores superiores a 60 000 no se hayan obtenido, ya que no se obtuvieron resultados de prueba. Además, la nueva arquitectura de Qwen3-Next parece tener un rendimiento regular. Esperemos que la nueva versión la mejore. Mis modelos de tamaño mediano favoritos actualmente son Qwen3-Next y Kimi-linear.

Hilo de karminski-牙医 (@karminski3)

Información del autor

Contenido del hilo