LMArena のメカニズムはシンプルです。ユーザーは 2 つの匿名モデル出力を提示され、外観、滑らかさ、完全性のみに基づいて選択を行います。 ある意味、通常のベンチマークよりも実際の使用シナリオに近いと言えます。 この文心試験の結果は、3つの分野で優秀でした。創造的な文章力で1位、複雑で長い質問の理解力で一貫してトップ、そして指示に従う能力でトップクラスでした。これら3つの側面は、エージェント対応言語モデルの核となる三角形構造をまさに形成しています。 特に、実際には最も誤解の少ない側面である創造的な執筆においては、言語モデルが人間の思考のリズムを真に反映しているかどうか、そして古臭くなくリズムの良い段落を書けるかどうかがテストされます。 今回ウェンシンさんに気づいたのは、軽妙で控えめながらも魅力的な内容を中国語で表現する彼女の能力です。このような能力は実に稀有なものです。 さらに重要なのは、これはあくまでプレビュー版に過ぎないということです。正式版は来週開催される百度世界会議で発表されます。現在ご覧いただける機能は、管理されたリーク版に過ぎません。
デビュー以来、ウェンシンは実際にいくつかの重要な転機を経験してきました。 各世代のアップグレードでは、パラメータの数やランキングリストを大々的に誇示するのではなく、B2B 市場における判断機能を備えたシステム エントリ ポイントとして、言語モデルを静かに確立してきました。 このランキングは、現段階では、誰が人間のようにタスクを整理できるかという仮説を検証したもののように思えます。 Wenxin Big Model 5.0-Preview は、創造性、実行精度、複雑なタスク構造の理解という点で独自の戦略的アプローチを示しています。 このリストに私が見るのは、国家主義的な物語を強調したり、プロパガンダの激しさに頼ったりすることなく、比較リストのトップに躍り出た国内モデルです。 言語の本質は世界観の反映です。 実際のところ、大規模モデルの機能は、世界とどのように関わるかという限界を意味します。 来週の Baidu World では、公式バージョンがシステム機能の面でどのように機能するかがわかります。そこで本当の議論が始まります。

