疑問に思っている方のために、予想通り、Gemini 3 Deep Think は、私が数日悩まされたスタックアンダーフローのバグを解決しました。その解決策は、このバグを解決した唯一の公開モデルである Opus 4.5 よりも決定的です(Gemini 3 Pro でも解決できませんでした)。正確な位置も確実に示してくれます。ただ、時間がかかるのが残念です…。 今のところもっと難しいテストはありません。ほとんどのベンチマークは飽和状態ですし、SupGen の作業でとても忙しいので、これについてはこれだけです。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
