X (Twitter)

最近找了一批真實醫療數據做了個小實驗，結果有點出人意料。 Gemini 3 Pro 第一，Qwen 第二，ChatGPT 5.1 第三，後面的，就不提了。這批數據來自真實問診場景：患者的主訴是自己描述的，醫生的結論是當時真實的診斷和處理。我們讓模型看診，再跟真實醫師的做法做比對。我想說的是，有些能力真的不是benchmark 跑得快就能看出來的。現在很多人覺得大模型都差不多了，但只要你拿到夠真實模糊的世界，差異反而是放大的。真實世界永遠是最狠的測試場。

來自凡人小北（@frxiaobei）的推文串

作者資訊

推文串內容