claude-opus-4.5 がリリースされました! 今回、Opus-4.5はAider Polyglot Coding Leaderboard(私が実践的に最も正確なプログラミングベンチマークだと思っている)を89.4まで押し上げました!ついに突破です! DeepSeek-R1 が年初には質問の 56.9% しか完了できなかったのに、今回は約 90% を完了できる理由を説明します。 では、費用はいくらですか?もちろん、お財布に負担がかかります。このロボットは100万トークンで、25ドルの収益を生み出します…昨日お見せしたシリコンベースの配達員のテストは、基本的に1回あたり100万トークンかかります…つまり、なんと170ドルです…本当に手が出ません… さらに、その他のテストもすべて最先端技術(SOTA)で実施されています。後ほどビデオテスト結果をお届けします!お楽しみに!
パフォーマンスパラメータ / 1
パフォーマンスパラメータ / 2
価格
要約














