대형 모델과 대화할 때 폴란드어가 영어보다 더 효과적일까요? 이 놀라운 논문을 살펴보겠습니다. 대규모 모델과의 대화에 어떤 언어가 가장 효과적인지 알아보기 위해, 그들은 다국어 시나리오에서 장문 언어 모델의 성능을 평가하는 ONERULER라는 프레임워크를 개발했습니다. 테스트는 26개 언어, 6개 주류 모델, 4개 컨텍스트 길이(8k-128k 토큰)를 다루었습니다. 결과를 직접 살펴보겠습니다. 초기 테스트 결과는 문맥 길이가 증가함에 따라 모델 성능이 현저히 감소한다는 것을 보여주는데, 이는 널리 알려진 사실입니다. 일반적으로 모델이 클수록 문맥 길이가 증가함에 따라 재현율이 감소하므로, 이러한 결론은 매우 자연스러운 현상입니다. 둘째, 고자원 언어(영어, 프랑스어 등 더 많은 코퍼스를 가진 언어)는 모든 맥락 길이에서 높은 정확도를 유지하는 반면, 저자원 언어(스와힐리어, 타밀어 등)는 긴 맥락에서 성능이 급격히 떨어지는 것으로 나타났습니다. 중요한 소식은 영어가 최고의 언어가 아니라는 것입니다. 폴란드어가 모든 작업에서 88.0%의 정확도를 기록하며 1위를 차지한 반면, 영어는 83.9%로 6위를 차지했습니다. 중국어는 62.1%에 그쳐 최하위 네 번째를 기록했습니다. 영어와 중국어는 대부분의 모델에서 사전 학습 데이터에서 우위를 차지하지만, 긴 맥락 작업에서는 두드러지지 않습니다. 이 논문은 또한 그것이 왜 나쁜지도 조사했습니다. 한 가지 가능성은 해당 언어에 대한 위키피디아 항목의 크기가 성능과 관련이 있다는 것입니다(하지만 이것이 전부는 아닌 듯합니다). 또 다른 가능성은 문자 체계(라틴/키릴 문자 대 표의 문자)가 역할을 했을 수도 있다는 것입니다. 마지막으로, 중국어 오류는 모델이 자주 "없음"을 잘못된 답변으로 선택했기 때문에 발생했습니다(특히 이 기사에서는 Qwen2.5-72B로 사용하는 Qwen의 경우... 저는 실제로 문제가 중국어 학습 성능 저하보다는 회수 자체에 있다고 생각합니다). 하지만 전반적으로 이 논문은 다소 오래된 편이며(올해 3월에 제출됨), 아직 연구에 Qwen2.5를 사용하고 있습니다. 이제 Qwen4가 이미 훈련 단계에 있는 것으로 보입니다. 그리고 중요한 점을 말씀드리자면, 현재의 텍스트-이미지/텍스트-비디오 모델은 여전히 영어로 학습하는 것이 가장 좋습니다. 전체 매개변수 수를 줄이기 위해 이러한 모델은 기본적으로 텍스트 임베딩/이해 부분에 대해서만 영어로 학습합니다. 따라서 프롬프트는 순수 영어로 학습할 때 가장 효과적이며, 중국어로 학습할 경우 결과가 훨씬 나쁩니다. 심층적인 독서를 위한 과거 시험지 모음: https://t.co/5GVuFR0tEq 온라인에서 읽어보세요:
논문 해석:

