Huawei acaba de lanzar un nuevo modelo, el Pangu Ultra-MoE-718B-V1.1. El modelo tiene 718 bytes de parámetros y 39 bytes de parámetros activados. Su característica más destacable es su capacidad para realizar inferencias utilizando una GPU Atlas 800T A2 con un VLLM modificado. Dado que la Atlas 800T A2 cuenta con 64 GB de VRAM, se requieren al menos 32 GPU para ejecutar este modelo correctamente. En cuanto al rendimiento, su desempeño matemático en AIME 25 es del 77,50%, similar al 78,3% de Gemini 2.5 Flash. No me convencen del todo los demás resultados de las pruebas, especialmente los de LiveCodeBench. (Esto no quiere decir que las puntuaciones del modelo sean erróneas, pero creo que la clasificación de LiveCodeBench es problemática. Colocó al GPT-OSS-120B en primer lugar, pero cuando realmente escribo código en él, es un milagro que el GPT-OSS-120B no me destroce el directorio local. Por no mencionar que el contexto del GPT-OSS-120B es de solo 4 KB, lo que ni siquiera da para el primer capítulo de Harry Potter y la piedra filosofal, que tiene 20 KB... Sí, Dumbledore acababa de encontrarse con McGonagall en Privet Drive, y Harry ni siquiera tuvo tiempo de decir una palabra antes de que el modelo no pudiera procesarlo). No voy a probarlo por ustedes. No encuentro un proveedor de servicios que implemente este modelo, y me da pereza llevarme un modelo de 1,5 TB para probarlo localmente... La velocidad de generación de tokens de mi dispositivo se estima en 0,02 por segundo...
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
