La mejor charla sobre el pasado, presente y futuro de las evaluaciones de codificación en @aidotengineer CODE. Básicamente, lo rastreamos por horizontes: segundos: Copilot Arena minutos: LiveCodeBench varios minutos: Repoyoutube.com/watch?v=tHN44y…s horas: Syzygy días: ??? https://t.co/exTyCakFxe Cuando invité a @StringChaos a hablar, ni siquiera sabía que se había unido a @Cursor_ai a tiempo completo; solo esperaba la historia de LiveCodeBench. En cambio, obtuvimos más de lo que jamás soñé: una visión completa de cómo han evolucionado las evaluaciones de codificación en los últimos tres años y todo lo que la comunidad ha aprendido, incluyendo el hacking de recompensas de o3, y ahora benchmarks para migrar cantidades enormes de código y evaluaciones en línea para ajustar la latencia y las limitaciones del mundo real. Termina con algunas recomendaciones realmente prescriptivas si también estás desarrollando tus propias evaluaciones de codificación.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.


