HLE评分有了显著提高 Kimi-K2-Instruct 的 4.7 分 Kimi-K2-Thinking 的值为 44.9 所以基本上中国人也可以培养他们自己的“人工智能研究科学家”。 对一些深刻问题的回答看起来都很不错。抱歉,我把苹果和橘子放在一起比较了。 即使这样,从 21.7 到 44.9 也是一个巨大的飞跃。令人难以置信。