これは冗談です。最強のLLMの一つであるV3.2-thinkingが、比較的弱いモデルや、それよりも古いバージョン(V3.1、V3.2-exp、R1-0528など)よりも劣っています。おそらく、lmarenaが改ざんされた最も分かりやすい例でしょう。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
1 件のツイート · 2025/12/05 4:40
これは冗談です。最強のLLMの一つであるV3.2-thinkingが、比較的弱いモデルや、それよりも古いバージョン(V3.1、V3.2-exp、R1-0528など)よりも劣っています。おそらく、lmarenaが改ざんされた最も分かりやすい例でしょう。