X (Twitter)

지금 중국 모델과 미국 모델의 차이가 어느 정도인지 잘 모르겠습니다. 몇 년 전만 해도 세대 차이가 1~2년 정도라고 일반적으로 여겨졌습니다. 벌써 반년도 더 지난 것 같은 기분이 드네요? 예를 들어, 가장 인기 있는 대형 모델 목록 사이트인 LMARaena의 경우, 작년에는 국내 모델들이 "목록에 들기에 충분한 수준"이었지만, 올해는 Claude나 GPT 같은 사이트들과 경쟁하기 시작했습니다. 가장 경쟁이 치열한 텍스트 순위를 살펴보면, Baidu ERNIE-5.0-Preview-1203은 LMARaena 텍스트 순위에서 실제로 상위 10위권에 진입했으며, 국내에서 생산된 대형 모델 중에서는 1위를 차지했습니다. LMARaena의 의견에 따르면, 주로 창의적인 글쓰기와 복잡한 지시 사항을 이해하는 능력에서 향상이 있었다고 합니다. 이 두 가지 측면은 일반적으로 실제 사용 시나리오와 가장 가깝고, 오류 발생 가능성도 가장 높습니다. 바이두가 이 부분을 어떻게 최적화했는지는 저도 잘 모르겠습니다. 사실 바이두의 엔지니어링 역량은 항상 뛰어났습니다. 다만 이제야 비로소 그 역량을 본격적으로 발휘하기 시작한 것 같은 느낌입니다. 공식 버전이 1월에 출시될 거라고 들었어요. 그때 한번 테스트해보고 정말 괜찮은지 확인해볼게요.

向阳乔木(@vista8)의 스레드

작성자 정보

스레드 내용