X (Twitter)

私は最近、実際の医療データのバッチを使用して小さな実験を行いました。結果はやや予想外のものでした。 1位はGemini 3 Pro、2位はQwen、3位はChatGPT 5.1。残りについては触れません。このデータは実際の医療相談のシナリオから得られたものです。患者の訴えは自ら述べられ、医師の結論はその時点での実際の診断と治療となります。モデルに診断を行わせ、それを実際の医師の診断と比較しました。私が言おうとしているのは、一部の能力は、ベンチマークの実行速度だけでは判断できないということです。今では、大型モデルはどれもほぼ同じであると多くの人が感じています。しかし、現実的でありながら十分に曖昧な世界を実現できれば... 違いは実際には拡大されます。現実世界は常に最も過酷な実験場です。

凡人小北（@frxiaobei）のスレッド

作者情報

スレッド内容