X (Twitter)

LMArena의 메커니즘은 간단합니다. 사용자는 두 개의 익명의 모델 출력에 직면하여 모양, 부드러움, 완성도만을 기준으로 선택을 합니다. 어떤 면에서는 일반적인 벤치마크보다 실제 사용 시나리오에 더 가깝습니다. 이 웬신 시험 결과는 세 가지 영역에서 탁월했습니다. 창작 작문 1위, 복잡하고 긴 문제 이해력에서 꾸준히 선두를 차지한 것, 그리고 지시 이행 능력(최고 수준)입니다. 이 세 가지 차원은 에이전트 지원 언어 모델의 핵심 삼각형 구조를 정확하게 형성합니다. 특히 창작 글쓰기는 사실상 가장 기만적이지 않은 차원인데, 언어 모델이 실제로 인간 사고의 리듬을 반영하는지, 그리고 진부하지 않고 좋은 리듬을 갖춘 문단을 쓸 수 있는지 여부를 테스트합니다. 이번에 웬신에게서 눈여겨본 점은 그녀가 중국어로 가볍고 절제된, 그리고 매력적인 내용을 표현하는 능력이었습니다. 이런 능력은 사실 꽤 흔치 않습니다. 더 중요한 것은, 이것은 단지 미리보기일 뿐이라는 것입니다. 공식 버전은 다음 주 바이두 월드 컨퍼런스에서 공개될 예정입니다. 현재 공개된 기능은 통제된 형태로 유출된 버전일 뿐입니다.

웬신은 데뷔 이후 실제로 몇 가지 중요한 전환점을 경험했습니다. 각 세대의 업그레이드는 매개변수 수나 순위 목록에 대한 대규모 자랑을 포함하지 않았습니다. 대신 언어 모델을 B2B 시장에서 판단 기능을 갖춘 시스템 진입점으로 조용히 확립했습니다. 이 순위는 현재 단계에서는 가설을 검증하는 것과 같습니다. 즉, 누가 인간과 유사한 방식으로 작업을 구성할 수 있는지에 대한 가설입니다. Wenxin Big Model 5.0-Preview는 창의성, 실행 정밀도, 복잡한 작업 구조에 대한 이해 측면에서 고유한 전략적 접근 방식을 보여줍니다. 제가 이 목록에서 보는 것은 민족주의적 서사를 강조하거나 선전의 강도에 의존하지 않고도 비교 목록의 맨 위에 오른 국내 모델입니다. 언어의 본질은 세계관을 반영합니다. 대규모 모델의 역량은 실제로 그 모델이 세상과 어떻게 소통하는지에 대한 경계입니다. 다음 주에 열리는 Baidu World에서 공식 버전이 시스템 성능 측면에서 어떤 성능을 보이는지 살펴보겠습니다. 그때가 진짜 대화가 시작되는 때죠.

凡人小北(@frxiaobei)의 스레드

작성자 정보

스레드 내용