X (Twitter)

土曜日の楽しいコードプロジェクトとして、また先日のツイートの続きとして、**llm-council** ウェブアプリをハックしてみました。ChatGPTと全く同じように見えますが、ユーザーからのクエリが1) OpenRouterを使って評議会内の複数のモデルに送信される点が異なります。例えば、現在は以下のようになります。「openai/gpt-5.1」、「google/gemini-3-pro-プレビュー」「アントロピック/クロード・ソネット-4.5」、「x-ai/grok-4」、次に、2) すべてのモデルが互いの (匿名化された) 応答を確認し、それらを確認してランク付けし、3) 「Chairman LLM」がそれをすべてコンテキストとして取得し、最終的な応答を生成します。同じクエリに対して複数のモデルの結果を並べて表示するのは興味深いことですが、さらに面白いのは、互いの応答に対する評価とランク付けを読むことです。モデルは驚くほど頻繁に他のLLMの回答を自分のものよりも優れていると選択するため、これはより一般的に興味深いモデル評価戦略となっています。例えば、今日LLM評議会と一緒に本の章を読んでいると、モデルは一貫してGPT 5.1を最高かつ最も洞察力のあるモデルとして称賛し、一貫してクロードを最悪のモデルとして選択し、他のモデルはその中間に浮かんでいます。しかし、これが私の定性的な評価と100％一致するとは確信していません。例えば、定性的にGPT 5.1は少し言葉が多く、広がりすぎており、Gemini 3は少し凝縮され、処理されていると感じます。クロードはこの領域では簡潔すぎます。とはいえ、LLM評議会のデータフローには、おそらく設計の余地が十分に残されているでしょう。LLMアンサンブルの構築は、まだ十分に検討されていないようです。私はバイブコードアプリをプッシュしました https://t.co/EZyOqwXd2k 他の人もプレイしたいなら。リポジトリのヘッダー画像として、ナノバナナプロを楽しみましょう

Andrej Karpathy（@karpathy）のスレッド

作者情報

スレッド内容