A Huawei acaba de lançar um novo modelo, o Pangu Ultra-MoE-718B-V1.1! O modelo possui 718 bytes de parâmetros e 39 bytes de parâmetros ativados. Sua característica mais notável é a capacidade de realizar inferência usando uma GPU Atlas 800T A2 com um VLLM modificado. Como a Atlas 800T A2 possui 64 GB de VRAM, são necessárias pelo menos 32 GPUs para executar este modelo com sucesso. Em termos de desempenho, seu desempenho matemático no AIME 25 é de 77,50%, semelhante aos 78,3% do Gemini 2.5 Flash. Não estou totalmente convencido pelos outros resultados dos testes, especialmente o LiveCodeBench. (Isso não quer dizer que as pontuações do modelo estejam erradas, mas acho que a classificação do LiveCodeBench é problemática. Ela classificou o GPT-OSS-120B em primeiro lugar, mas quando eu realmente escrevo código nele, é um milagre que o GPT-OSS-120B não destrua meu diretório local. Sem mencionar que o contexto do GPT-OSS-120B tem apenas 4 KB, o que não comporta nem mesmo o primeiro capítulo de Harry Potter e a Pedra Filosofal, que tem 20 KB... Sim, Dumbledore acabou de encontrar McGonagall na Rua dos Alfeneiros, e Harry nem teve chance de dizer uma palavra antes que o modelo não conseguisse processar tudo.) Não vou testar para vocês. Não consigo encontrar um provedor de serviços para implementar esse modelo e estou com preguiça de arrastar um modelo de 1,5 TB para testá-lo localmente... A velocidade de geração de tokens do meu dispositivo é estimada em 0,02 por segundo...
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
