私は最近、実際の医療データのバッチを使用して小さな実験を行いました。 結果はやや予想外のものでした。 1位はGemini 3 Pro、2位はQwen、3位はChatGPT 5.1。 残りについては触れません。 このデータは実際の医療相談のシナリオから得られたものです。 患者の訴えは自ら述べられ、医師の結論はその時点での実際の診断と治療となります。 モデルに診断を行わせ、それを実際の医師の診断と比較しました。 私が言おうとしているのは、一部の能力は、ベンチマークの実行速度だけでは判断できないということです。 今では、大型モデルはどれもほぼ同じであると多くの人が感じています。 しかし、現実的でありながら十分に曖昧な世界を実現できれば... 違いは実際には拡大されます。 現実世界は常に最も過酷な実験場です。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。