作为周六轻松有趣的编程项目,也呼应了之前那条推文,我开发了一个 **llm-council** Web 应用。它看起来和 ChatGPT 一模一样,区别在于每个用户查询都会:1) 使用 OpenRouter 分发到你的议会中的多个模型,例如目前的情况: "openai/gpt-5.1", "google/gemini-3-pro-preview", "anthropic/claude-sonnet-4.5", "x-ai/grok-4", 然后 2) 所有模型都能看到彼此的(匿名)回复,并对其进行审查和排名,然后 3) “LLM 主席”将所有这些作为背景信息,并生成最终回复。 并排查看多个模型对同一查询的结果很有趣,更有趣的是,还可以阅读它们对彼此响应的评估和排名。 很多时候,模型会出人意料地选择其他LLM模型的回答优于自身,这使得这种模型评估策略更具普遍意义。例如,今天我和我的LLM委员会一起阅读书籍章节时,模型一致认为GPT 5.1是最佳、最具洞察力的模型,而一致认为Claude是最差的模型,其他模型则介于两者之间。但我并不完全确信这与我自己的定性评估一致。例如,就定性而言,我认为GPT 5.1的表达略显冗长繁杂,而Gemini 3则更加精炼简洁。Claude在这方面又过于简略。 也就是说,LLM理事会的数据流设计可能还有很大的发挥空间。LLM集成的构建似乎尚未得到充分探索。 我把这个带有氛围感的编码应用程序推送到了 https://t.co/EZyOqwXd2k 如果其他人也想玩的话。ty nano banana pro 是为了好玩,仓库的标题图片
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
