HLE評分有了顯著提高 Kimi-K2-Instruct 的 4.7 分 Kimi-K2-Thinking 的值為 44.9 所以基本上中國人也可以培養他們自己的「人工智慧研究科學家」。 一些深刻問題的回答看起來都很不錯。抱歉,我把蘋果和橘子放在一起比較了。 即使這樣,從 21.7 到 44.9 也是一個巨大的飛躍。令人難以置信。