我们仅用了10亿美元就将swebench的性能提升了整整3%。在计算和数据方面分别投入了5亿美元之后,遗憾的是,没有剩余资金来改进基准测试本身了。不过别担心,我们已经为下次投入了100亿美元。
如果一个患有严重自闭症的马基雅维利主义者在这里工作,他就能解决这个问题。只需要一个人。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月4日 09:17
我们仅用了10亿美元就将swebench的性能提升了整整3%。在计算和数据方面分别投入了5亿美元之后,遗憾的是,没有剩余资金来改进基准测试本身了。不过别担心,我们已经为下次投入了100亿美元。
如果一个患有严重自闭症的马基雅维利主义者在这里工作,他就能解决这个问题。只需要一个人。