제미니 3가 정말 그렇게 강력할까요? 한 역사학자가 제미니 3 프로의 역사 문서 해독 능력을 테스트했습니다. 그는 이전에는 모형으로는 불가능했던 역사적 문서들을 해독하고 추론할 수 있습니다. 솔직히 말해서, 이 필사본 속 인물들은 연구와 훈련 없이는 전혀 알아볼 수 없습니다. 이전에 본 적이 없는 복잡한 손으로 쓴 표를 인식하는 부분에서는, 제미니 3은 훈련된 학생들보다 더 뛰어난 성과를 보였습니다. LLM의 "예측적" 특성으로 인해 비정형적인 철자, 이름, 지명, 날짜, 금액 등 발생 가능성이 낮은 요소에서 오류가 발생하기 쉽습니다. 더욱이, 과거 기록 파일의 구두점, 대문자, 긴 s(ſ), 측정 단위 등은 매우 모호합니다. 저자는 다양한 글쓰기 스타일과 이미지 조건을 포괄하여 약 10,000단어에 달하는 50개의 영어 학술 필기 샘플을 테스트하여 CER/WER을 평가했습니다. Gemini-2.5-Pro의 경우 엄격한 채점 기준에서 CER은 약 4%, WER은 11%입니다. 구두점과 대문자 사용 오류를 제외하면 CER은 2%, WER은 4%로 떨어지며, 이는 전문가가 평가한 점수와 비슷합니다. 모호한 몇 가지 항목을 제외한 후, 새로운 모델(제미니 3)은 CER을 0.56%로, WER을 1.22%로 낮추어 "전문가 수준"에 근접하거나 도달했습니다. 이는 제미니 2.5-프로 대비 50~70% 향상된 수치입니다. 저자는 이 현상이 일부 전문가들이 오랫동안 현대 모델로는 극복할 수 없다고 여겨왔던 선을 넘는 것으로 보인다고 말합니다. 모호한 숫자에 직면했을 때, 이 시스템은 누락된 맥락을 추론하고, 역사적 통화와 도량형 체계를 여러 단계로 변환하여 문서에 묘사된 세계에 대한 추상적인 추론을 필요로 하는 정확한 결론에 도달합니다. 다시 말해, 이 시스템은 기호가 명시적으로 정의된 적이 없음에도 불구하고 마치 기호를 사용할 수 있는 것처럼 행동합니다. 지금 일어나고 있는 일은 새로운 암묵적 추론 형태, 즉 통계적 모델 내에서 지각, 기억, 논리가 자연스럽게 결합된 것입니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.



