Novo blog de pesquisa da Axaxiommath.ai/territory/lear…o5ogV Aprendendo Collatz - A Mãe de Todas as Tocas de Coelho O que acontece quando você treina um Transformer em um dos quebra-cabeças matemáticos mais infames e não resolvidos — e depois estuda como ele falha?
Escolha um número, qualquer número. Agora imagine-o como o Coelho Branco de Alice no País das Maravilhas, olhando nervosamente para o relógio antes de mergulhar de cabeça em uma toca de coelho aritmética. Par? Divida por dois. Ímpar? Triplique + 1 e depois divida por dois. De alguma forma, o coelho sempre volta correndo para 4→2→1. Mágica!
Por trás de toda essa fantasia que nos leva a um labirinto de labirintos, esconde-se um dos problemas em aberto mais notórios da matemática. A conjectura de Collatz. Está aberto desde a década de 1930. Os computadores verificaram todos os valores iniciais até 2,95×10²⁰. Todos eles eventualmente chegam a 1. E, no entanto, nenhuma prova.
Quer sentir isso? Comece com 81: 81→244→122→61→184→92→46→23→70→35→106→53→160→80→40→20→10→5→16→8→4→2→1 Então, o ciclo se repete indefinidamente. Ziguezagueando loucamente pelos números inteiros! Uma rápida queda de 23 passos de volta à Terra. E o coelho finalmente pisca novamente sob a luz do sol.
Quando o coelho quer saltar diretamente para o destino final, isso é chamado de passo longo de Collatz. Um transformador consegue prever esses "longos degraus de Collatz"? E quão perfeito? François Charton (@f_charton) da Axiom e seu colaborador Ashvni Narayanan obtiveram uma precisão de 99,8% até um trilhão.
Como o transformador atingiu essa altura? Através de saltos discretos. 25%→37%→55%→71%→88% Passos múltiplos, como saltos de coelho. Esses saltos estão longe de ser aleatórios. Estão ligadas à estrutura matemática profunda das próprias sequências de Collatz.
O segredo? Codificação binária. Os modelos aprendem de uma maneira específica. Em vez de serem "apenas razoáveis" em tudo, eles aprendem a acertar em cheio em conjuntos crescentes de entradas e, em seguida, passam rapidamente para o próximo conjunto. Primeiro, as entradas que terminam em 001 no sufixo binário, depois as que terminam em 1011 e assim por diante.
Diz o ditado que os mestres em Direito não sabem fazer contas, mas aqui os modelos não estão alucinando. Quase 90% dos erros seguem apenas duas regras simples e explicáveis que podemos interpretar. Eles raciocinam com cuidado – apenas muito ocasionalmente seguem o coelho certo para dentro do túnel do comprimento errado.
A própria matemática pode ser uma nova ferramenta para a pesquisa em interpretabilidade! A interpretabilidade muitas vezes depende de autópsias que consideram o peso de cada animal. Mas, à medida que os modelos crescem, é como mapear uma cidade neurônio por neurônio. Nós projetamos experimentos baseados em princípios fundamentais. Depois, lemos os resultados. A matemática como microscópio.🔬
Artigo:arxiv.org/pdf/2511.10811c blogaxiommath.ai/territory/lear…oT