É um equívoco pensar que as implementações populares de pipelines de inferência de IA que utilizam LLMs baseados em Transformers estejam, de alguma forma, deixando de aproveitar grandes quantidades de desempenho devido a erros de engenharia ou negligência.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.