Aprendizado por Reforço (RL) é um mundo completamente diferente. Os 9 principais modelos de aprendizado de máquina (LLMs) totalizam 2,4 trilhões de tokens, o que equivale a aproximadamente 10 TB. O PufferLib treina mais de 1000 TB de observações em um único tinybox com 6 placas de vídeo 4090. Tanto trabalho focado em escalar a capacidade computacional, e tão pouco em escalar os dados!
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.