作為週六輕鬆有趣的程式設計項目,也呼應了之前那條推文,我開發了一個 **llm-council** Web 應用。它看起來和 ChatGPT 一模一樣,區別在於每個用戶查詢都會:1) 使用 OpenRouter 分發到你的議會中的多個模型,例如目前的情況: "openai/gpt-5.1", "google/gemini-3-pro-preview", "anthropic/claude-sonnet-4.5", "x-ai/grok-4", 然後 2) 所有模型都能看到彼此的(匿名)回复,並對其進行審查和排名,然後 3) “LLM 主席”將所有這些作為背景信息,並生成最終回复。 並排查看多個模型對相同查詢的結果很有趣,更有趣的是,還可以閱讀它們對彼此回應的評估和排名。 很多時候,模型會出乎意料地選擇其他LLM模型的回答優於自身,這使得這種模型評估策略更具普遍意義。例如,今天我和我的LLM委員會一起閱讀書籍章節時,模型一致認為GPT 5.1是最佳、最具洞察力的模型,而一致認為Claude是最差的模型,其他模型則介於兩者之間。但我並不完全確信這與我自己的定性評估一致。例如,就定性而言,我認為GPT 5.1的表達略顯冗長繁雜,而Gemini 3則更加精煉簡潔。 Claude在這方面又過於簡略。 也就是說,LLM理事會的資料流設計可能還有很大的發揮空間。 LLM整合的建構似乎尚未得到充分探索。 我把這個帶有氛圍感的編碼應用程式推送到了 https://t.co/EZyOqwXd2k 如果其他人也想玩的話。 ty nano banana pro 是為了好玩,倉庫的標題圖片
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
