A melhor palestra sobre o passado, presente e futuro das avaliações de código foi apresentada no evento CODE da @aidotengineer. Basicamente, acompanhe por horizontes: segundos: Copilot Arena minutos: LiveCodeBench vários youtube.com/watch?v=tHN44y…a: GSO várias horas: Syzygy dias: ??? https://t.co/exTyCakFxe Quando convidei o @StringChaos para palestrar, eu nem sabia que ele tinha se juntado à @Cursor_ai em tempo integral; eu só esperava ouvir a história do LiveCodeBench. Em vez disso, recebemos mais do que eu jamais sonhei: uma análise abrangente de todas as maneiras pelas quais as avaliações de código evoluíram nos últimos 3 anos e tudo o que a comunidade aprendeu, incluindo a manipulação de recompensas do o3 e, agora, benchmarks para migrar quantidades REALMENTE grandes de código e avaliações online para ajustar a latência e as limitações do mundo real. A palestra termina com algumas recomendações realmente práticas para quem também está criando suas próprias avaliações de código.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.


