Isso é certamente um absurdo. "A execução final do treinamento representa 1% do poder computacional total de P&D" é uma generalização equivocada e confusa das práticas de GDM, eu imagino. Ninguém realiza ablações em larga escala e, para um laboratório com poucos GPUs, isso levaria *anos*. De qualquer forma, o K2 é um V3 robusto. Quem tem telhado de vidro não atira pedra. Melhor não.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
