WeirdML容易受到异常值的影响,但总体而言,我认为它是一个有用的指标。K2-Thinking能走多远很有意思。它会超越V3系列的最佳水平吗?还是能与当前一代的Claude相媲美?
我预测为0.42
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月7日 15:12
WeirdML容易受到异常值的影响,但总体而言,我认为它是一个有用的指标。K2-Thinking能走多远很有意思。它会超越V3系列的最佳水平吗?还是能与当前一代的Claude相媲美?
我预测为0.42