雄心壮志的规模之大令人震惊 🐳:LLM 可以证明一些非平凡定理。我们来用 PutnamBench 测试一下。我们目前最好的系统准确率是 7.4%。还有很多工作要做。 大家:😮 ooooO 是时候💯爬山了!我们“分解问题”的新思路……15%!35%!70%! - 🐋:够了。118/120,饱和度高。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月27日 17:36
雄心壮志的规模之大令人震惊 🐳:LLM 可以证明一些非平凡定理。我们来用 PutnamBench 测试一下。我们目前最好的系统准确率是 7.4%。还有很多工作要做。 大家:😮 ooooO 是时候💯爬山了!我们“分解问题”的新思路……15%!35%!70%! - 🐋:够了。118/120,饱和度高。