quelques hypothèses sur ce que pourrait signifier une « meilleure préformation » - Intégration avec les autres étapes de formation : je suppose qu’ils sont enfin arrivés à un stade où les performances post-formation (par exemple, SWE-Bench) peuvent servir de signal pour les décisions d’ingénierie avant la formation. - Filtrage : techniques de mise à l’échelle telles que les fonctions d’influence pour éliminer les points de données qui ne contribuent pas à l’évaluation des performances. - Données synthétiques : utilisation de la reformulation pour suréchantillonner certains documents utiles et les rendre plus faciles à analyser. - Mélange : des approches plus rigoureuses et adaptables pour la détermination des coefficients de mélange - Nouvelles données : achat et numérisation de livres supplémentaires, transcription de vidéos YouTube, acquisition de collections de jetons privés comme des articles de presse - Regroupement intelligent : il existe différentes manières de regrouper les documents en lots plus performants, notamment pour les documents à contexte long. - systèmes : plus de données, plus d'opérations en virgule flottante
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.