Um modelo de linguagem com 1 quatrilhão de parâmetros não está totalmente fora de questão (apesar de haver um desafio em relação à origem de todos esses dados). embora você provavelmente precisasse de 25% mais GPUs do que isso para contexto e cache KV. Provavelmente, 100.000 H100 conseguiriam fazer isso.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
