Acho estranho as pessoas pensarem que estão quantizando modelos de fronteira. Na minha opinião, é quase 100% certo que todos já estão rodando em FP4, e qualquer coisa inferior a isso não é otimizada para GPUs da Nvidia, e presumo que para TPUs, Trainium etc.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.