X (Twitter)

作为周六轻松有趣的编程项目，也呼应了之前那条推文，我开发了一个 **llm-council** Web 应用。它看起来和 ChatGPT 一模一样，区别在于每个用户查询都会：1) 使用 OpenRouter 分发到你的议会中的多个模型，例如目前的情况： "openai/gpt-5.1", "google/gemini-3-pro-preview", "anthropic/claude-sonnet-4.5", "x-ai/grok-4", 然后 2) 所有模型都能看到彼此的（匿名）回复，并对其进行审查和排名，然后 3) “LLM 主席”将所有这些作为背景信息，并生成最终回复。并排查看多个模型对同一查询的结果很有趣，更有趣的是，还可以阅读它们对彼此响应的评估和排名。很多时候，模型会出人意料地选择其他LLM模型的回答优于自身，这使得这种模型评估策略更具普遍意义。例如，今天我和我的LLM委员会一起阅读书籍章节时，模型一致认为GPT 5.1是最佳、最具洞察力的模型，而一致认为Claude是最差的模型，其他模型则介于两者之间。但我并不完全确信这与我自己的定性评估一致。例如，就定性而言，我认为GPT 5.1的表达略显冗长繁杂，而Gemini 3则更加精炼简洁。Claude在这方面又过于简略。也就是说，LLM理事会的数据流设计可能还有很大的发挥空间。LLM集成的构建似乎尚未得到充分探索。我把这个带有氛围感的编码应用程序推送到了 https://t.co/EZyOqwXd2k 如果其他人也想玩的话。ty nano banana pro 是为了好玩，仓库的标题图片

来自 Andrej Karpathy（@karpathy）的推文线程

作者信息

线程正文