X (Twitter)

作為週六輕鬆有趣的程式設計項目，也呼應了之前那條推文，我開發了一個 **llm-council** Web 應用。它看起來和 ChatGPT 一模一樣，區別在於每個用戶查詢都會：1) 使用 OpenRouter 分發到你的議會中的多個模型，例如目前的情況： "openai/gpt-5.1", "google/gemini-3-pro-preview", "anthropic/claude-sonnet-4.5", "x-ai/grok-4", 然後 2) 所有模型都能看到彼此的（匿名）回复，並對其進行審查和排名，然後 3) “LLM 主席”將所有這些作為背景信息，並生成最終回复。並排查看多個模型對相同查詢的結果很有趣，更有趣的是，還可以閱讀它們對彼此回應的評估和排名。很多時候，模型會出乎意料地選擇其他LLM模型的回答優於自身，這使得這種模型評估策略更具普遍意義。例如，今天我和我的LLM委員會一起閱讀書籍章節時，模型一致認為GPT 5.1是最佳、最具洞察力的模型，而一致認為Claude是最差的模型，其他模型則介於兩者之間。但我並不完全確信這與我自己的定性評估一致。例如，就定性而言，我認為GPT 5.1的表達略顯冗長繁雜，而Gemini 3則更加精煉簡潔。 Claude在這方面又過於簡略。也就是說，LLM理事會的資料流設計可能還有很大的發揮空間。 LLM整合的建構似乎尚未得到充分探索。我把這個帶有氛圍感的編碼應用程式推送到了 https://t.co/EZyOqwXd2k 如果其他人也想玩的話。 ty nano banana pro 是為了好玩，倉庫的標題圖片

來自 Andrej Karpathy（@karpathy）的推文串

作者資訊

推文串內容