Es bueno que el peso sea abierto, pero comparar modelos densos vs. moe y solo mirar los parámetros totales es bastante injusto; si miras los parámetros activos en lugar de los parámetros totales, es una historia diferente: - GLM 4.6 (32B): 74% menos - Minimax M2 (10B): 92% menos - Pensamiento K2 (32B): 74% menos - V3.2 (37B): 70% menos El tamaño (tanto total como activo) no es la métrica correcta aquí, deberíamos tener el mismo gráfico con la velocidad en vllm / sglang
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
