X (Twitter)

Primeiro laboratório ocidental a conseguir lançar o primeiro modelo não pensante que se aproxima do estado da arte em código aberto chinês (DeepSeek, Kimi K2 etc.). O modelo de raciocínio está a caminho. O que é ótimo é que ele é multimodal (o DeepSeek e o Kimi K2 não são). Impressionante! Pontos importantes a observar: --------------------------- 1. 41 bilhões de parâmetros ativos e 675 bilhões de parâmetros totais. 2. Treinado do zero com 3000 H200s (não um ajuste fino do DeepSeek) Implantação (nó único) --------------------------- FP8: Este modelo é a versão pós-treinada do FP8, otimizada para tarefas de instrução, tornando-o ideal para casos de uso baseados em bate-papo, agentes e instruções. 1. FP8 em um único nó de B200s ou H200s. 2. NVFP4 em um único nó de H100s ou A100s. https://t.co/82WKbULeOS

Thread de GDP at NeurIPS 2025 (@bookwormengr)

Informações do autor

Conteúdo da thread