X (Twitter)

최근 실제 의료 데이터를 활용하여 간단한 실험을 진행했습니다. 결과는 다소 예상치 못한 것이었다. Gemini 3 Pro가 1위, Qwen이 2위, ChatGPT 5.1이 3위입니다. 나머지는 언급하지 않겠습니다. 이 데이터는 실제 의료 상담 시나리오에서 가져온 것입니다. 환자가 호소하는 증상은 환자 스스로 설명한 것이며, 의사의 결론은 당시의 실제 진단 및 치료 내용입니다. 우리는 모델이 진단을 수행하도록 한 다음, 실제 의사의 진단 결과와 비교했습니다. 제가 말씀드리고 싶은 것은 일부 능력은 단순히 벤치마크 실행 속도만으로 판단할 수 없다는 것입니다. 요즘 많은 사람들은 대형 모델들이 거의 다 비슷하다고 생각합니다. 하지만 현실적이면서도 충분히 모호한 세계를 만들어낼 수만 있다면... 실제로 차이점은 더욱 두드러집니다. 현실 세계는 언제나 가장 가혹한 시험대이다.

凡人小北(@frxiaobei)의 스레드

작성자 정보

스레드 내용