huh @voooooogel @norvid_studies Parece que não são cabeças de indução. Eu escrevi um pequeno script que testa a capacidade de indução (basicamente, a precisão na segunda metade de uma série de sequências do tipo [a,b,c,d,e,f, a,b,c,d,e,f], onde a,b,c etc. são tokens aleatórios). E há uma mudança de fase distinta por volta dos 600 passos, onde o algoritmo aprende indução. Mas isso acontece algum tempo depois do segundo pico de perda!
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
