최근 실제 의료 데이터를 활용하여 간단한 실험을 진행했습니다. 결과는 다소 예상치 못한 것이었다. Gemini 3 Pro가 1위, Qwen이 2위, ChatGPT 5.1이 3위입니다. 나머지는 언급하지 않겠습니다. 이 데이터는 실제 의료 상담 시나리오에서 가져온 것입니다. 환자가 호소하는 증상은 환자 스스로 설명한 것이며, 의사의 결론은 당시의 실제 진단 및 치료 내용입니다. 우리는 모델이 진단을 수행하도록 한 다음, 실제 의사의 진단 결과와 비교했습니다. 제가 말씀드리고 싶은 것은 일부 능력은 단순히 벤치마크 실행 속도만으로 판단할 수 없다는 것입니다. 요즘 많은 사람들은 대형 모델들이 거의 다 비슷하다고 생각합니다. 하지만 현실적이면서도 충분히 모호한 세계를 만들어낼 수만 있다면... 실제로 차이점은 더욱 두드러집니다. 현실 세계는 언제나 가장 가혹한 시험대이다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.