PROOFGRID 是一套全新的、具有挑战性但又易于处理的逻辑推理任务,它构成了一个与领域无关的基于约束的推理测试。Grok 4 在 PROOFGRID 的困难子集上达到了最新水平,并且领先优势明显。 @doomslide 和 @VictorTaelin 如果还没看过的话,可能会喜欢。
我预测如果有人尝试测试 Kimi-Thinking,结果会是 0.23。 https://t.co/nyEDiQsZ1Z 这里有很多东西可以学习。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月13日 11:28
PROOFGRID 是一套全新的、具有挑战性但又易于处理的逻辑推理任务,它构成了一个与领域无关的基于约束的推理测试。Grok 4 在 PROOFGRID 的困难子集上达到了最新水平,并且领先优势明显。 @doomslide 和 @VictorTaelin 如果还没看过的话,可能会喜欢。
我预测如果有人尝试测试 Kimi-Thinking,结果会是 0.23。 https://t.co/nyEDiQsZ1Z 这里有很多东西可以学习。