在 @aidotengineer CODE 大会上,关于编码评估的过去、现在和未来,演讲非常精彩。基本上可以按阶段追踪: 秒:副驾驶竞技场 分钟:LiveCodeBench 多分钟:RepoChat ~小时:GSO 数小时:合朔 天: ??? https://t.co/exTyCakFxe 当我邀请 @StringChaos 来演讲时,我甚至不知道他已经全职加入 @Cursor_ai;我当时只是期待他能分享 LiveCodeBench youtube.com/watch?v=tHN44y…顾了过去三年代码评估工具的演变历程,以及社区从中汲取的经验,包括 o3 的奖励机制优化,以及用于迁移海量代码的基准测试和在线评估,以应对延迟和实际应用的限制。最后,他还为正在构建代码评估工具的开发者提供了一些切实可行的建议。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。


