Hoje, escrevi três kernels que fundem vários gates e scans em nossa célula recorrente, além de um kernel de perda PPO fundido. O resultado é um aumento de 2 milhões de passos por segundo no treinamento, mesmo antes de começar a otimizar. Transmiti mais de 12 horas de desenvolvimento hoje. Amanhã, vou malhar o dia todo e relaxar. Star pufferlib. Gn
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.