Claude Opus 4.5がリリースされました。ソフトウェアエンジニアリングの能力は確かに最強で、レビューで80点以上を獲得した最初のバージョンですが、公式のAnthropicイメージは依然としてかなり物議を醸しています。 上位データの違いを強調するために 0 ~ 70 の範囲が意図的に折り畳まれているのは理解できます。よく見ると、折り畳みマーカーも確認できます。 しかし、データ可視化の客観性という観点から見ると、これは依然として望ましくない手法です。Sonnet 4.5を用いて評価した場合でも、問題点は明らかです。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。

