Meilleure conférence sur le passé, le présent et l'avenir des évaluations de code à @aidotengineer CODE. À suivre selon les différents horizons : secondes : Copilot Arena minutes : LiveCodeBench plusieurs minutes : RepoChyoutube.com/watch?v=tHN44y…eurs heures : Syzygy jours: ??? https://t.co/exTyCakFxe Lorsque j'ai invité @StringChaos à prendre la parole, j'ignorais qu'il avait rejoint @Cursor_ai à temps plein ; j'espérais simplement qu'il nous parlerait de LiveCodeBench. Au lieu de cela, nous avons eu droit à bien plus que ce que j'avais imaginé : un panorama complet de l'évolution des évaluations de code ces trois dernières années et de tout ce que la communauté a appris, notamment le détournement des récompenses par o3, et désormais des benchmarks permettant de migrer de très grandes quantités de code et d'évaluations en ligne afin de compenser la latence et les contraintes du monde réel. L'intervention se conclut par des recommandations concrètes si vous développez vous aussi vos propres évaluations de code.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.


