最近找了一批真實醫療數據做了個小實驗, 結果有點出人意料。 Gemini 3 Pro 第一,Qwen 第二,ChatGPT 5.1 第三, 後面的,就不提了。 這批數據來自真實問診場景: 患者的主訴是自己描述的,醫生的結論是當時真實的診斷和處理。 我們讓模型看診,再跟真實醫師的做法做比對。 我想說的是,有些能力真的不是benchmark 跑得快就能看出來的。 現在很多人覺得大模型都差不多了, 但只要你拿到夠真實模糊的世界, 差異反而是放大的。 真實世界永遠是最狠的測試場。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。