J'adore ce journal. Bien qu'à première vue cela ressemble simplement à une décomposition des tâches et à l'autocohérence à l'aide d'ensembles, je souhaite souligner d'autres aspects. Cet article aborde ce que la plupart d'entre nous ressentons intuitivement ou essayons avec les LLM, mais que nous abandonnons après une tentative simple.
Ils construisent un système à un million d'étapes qui, en pratique, ne se trompe jamais, non pas en créant un modèle « plus intelligent », mais en décomposant la tâche en un million de minuscules morceaux et en corrigeant minutieusement chaque morceau. Ils accomplissent tout cela avec seulement gpt4.1-mini
Je retiens cette idée de cet article : « Si vous devez obtenir zéro erreur pendant un million d'étapes, vous devrez décomposer la tâche un million de fois. » Nos efforts de mise en œuvre porteront sur la manière de décomposer et de corriger universellement les erreurs.
Les idées utilisées ici restent globalement simples. Bien que la garantie de fiabilité « zéro erreur » sur un million d'itérations soit loin d'être anodine, je ne parierais pas sur un taux d'erreur de 0 % avant d'avoir consulté l'article. Ce document est une bombe à retardement.
Les idées fondamentales explorées ici sont celles que nous devrions élaborer pour les tâches linguistiques sans détails de décomposition prédéfinis. La qualité des résultats dépendrait de la capacité du modèle à décomposer les tâches et à s'auto-corriger.
Mais si je devais orienter mes espoirs dans une direction quelconque, dans l'hypothèse où il n'y aurait aucune avancée architecturale majeure, ce serait celle-ci. C'est tout simplement une solution qui a été mise au point à grande échelle et pour toutes sortes de tâches.
Je pense également que cela intégrerait la programmation dynamique et la recherche arborescente à la pile d'entraînement/d'inférence.