Alguém observou alguma diferença no desempenho do modelo ao usar diferentes graus de paralelismo de tensores? Estamos vendo grandes mudanças na avaliação com diferentes níveis de paralelismo de tensores.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.