Nouveau blog de recherche daxiommath.ai/territory/lear…kD0zo5ogV Apprendre Collatz - La mère de tous les terriers de lapin Que se passe-t-il lorsqu'on entraîne un transformateur sur l'un des problèmes mathématiques non résolus les plus célèbres, puis qu'on étudie comment il échoue ?
Choisissez un nombre, n'importe lequel. Imaginez maintenant qu'il s'agisse du Lapin Blanc d'Alice au pays des merveilles, jetant un coup d'œil nerveux à sa montre avant de plonger dans un terrier de lapin arithmétique. Pair ? Divisez-le par deux. Impair ? Triplez-le et ajoutez-en un, puis divisez-le par deux. D'une manière ou d'une autre, le lapin revient toujours à 4→2→1. Magique !
Derrière toutes ces fantaisies alambiquées se cache l'un des problèmes ouverts les plus notoires des mathématiques. La conjecture de Collatz. Il est ouvert depuis les années 1930. Les ordinateurs ont vérifié toutes les valeurs initiales jusqu'à 2,95×10²⁰. Chacune d'entre elles finit par atteindre 1. Et pourtant… aucune preuve.
Envie de le ressentir ? Commencez par 81 : 81→244→122→61→184→92→46→23→70→35→106→53→160→80→40→20→10→5→16→8→4→2→1 Puis ça boucle indéfiniment. Zigzag fou à travers les entiers ! Une chute rapide de 23 pas pour retomber sur terre. Et le lapin cligne enfin des yeux à la lumière du soleil.
Lorsque le lapin veut sauter directement vers sa destination finale, on parle d'un long pas de Collatz. Un transformateur peut-il prédire ces « longs pas de Collatz » ? Et à quel point c'est parfait ? François Charton (@f_charton) et son collaborateur Ashvni Narayanan d'Axiom ont obtenu une précision de 99,8 % jusqu'à un billion.
Comment le transformateur a-t-il pu atteindre une telle hauteur ? Par sauts discrets. 25 % → 37 % → 55 % → 71 % → 88 % Plusieurs étapes comme des bonds de lapin. Ces bonds en avant sont tout sauf aléatoires. Elles sont liées à la structure mathématique profonde des suites de Collatz elles-mêmes.
Le secret ? Le codage binaire. Les modèles apprennent selon un style spécifique. Au lieu d'être « juste corrects » partout, ils apprennent à avoir parfaitement raison sur des ensembles d'entrées de plus en plus nombreux, puis passent instantanément à l'ensemble suivant. Les entrées se terminant par 001 en suffixe binaire en premier, puis celles se terminant par 1011, et ainsi de suite.
La légende veut que les titulaires d'une maîtrise en droit soient incapables de faire des calculs, mais ici, les mannequins ne sont pas en train d'halluciner. Près de 90 % des erreurs suivent seulement deux règles simples et explicables que nous pouvons interpréter. Ils raisonnent avec soin, mais suivent très rarement la bonne piste dans un tunnel trop long.
Les mathématiques elles-mêmes peuvent constituer un nouvel outil de recherche sur l'interprétabilité ! L'interprétabilité implique souvent des autopsies au poids près. Mais à mesure que les modèles se développent, c'est comme cartographier une ville neurone par neurone. Nous concevons des expériences fondées sur des principes fondamentaux. Ensuite, nous analysons les résultats. Les mathématiques comme un microscope.🔬
Articlearxiv.org/pdf/2511.10811mYc blaxiommath.ai/territory/lear…6pmoT