Que bom que é um modelo de peso aberto, mas comparar modelos densos com modelos MOE considerando apenas o total de parâmetros é bastante injusto. Se você analisar os parâmetros ativos em vez do total, a história é outra. - GLM 4.6 (32B): 74% menos - Minimax M2 (10B): 92% menos - Pensamento K2 (32B): 74% menos - V3.2 (37B): 70% menos O tamanho (tanto total quanto ativo!) não é a métrica correta aqui; deveríamos ter o mesmo gráfico com a velocidade no vllm/sglang.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
