X (Twitter)

Como um projeto de programação divertido para um sábado, e dando continuidade a este tweet anterior, eu criei um aplicativo web para o **llm-council**. Ele é exatamente como o ChatGPT, exceto que cada consulta do usuário é 1) enviada para vários modelos no seu conselho usando o OpenRouter, por exemplo, atualmente: "openai/gpt-5.1", "google/gemini-3-pro-preview", "antrópico/soneto-claude-4.5", "x-ai/grok-4", Em seguida, 2) todos os modelos têm acesso às respostas (anonimizadas) uns dos outros, revisam-nas e classificam-nas, e então 3) um "Presidente do LLM" recebe tudo isso como contexto e elabora a resposta final. É interessante ver os resultados de vários modelos lado a lado para a mesma consulta e, ainda mais divertido, ler a avaliação e a classificação que fazem das respostas uns dos outros. Com bastante frequência, os modelos se mostram surpreendentemente dispostos a selecionar a resposta de outro mestre em Direito (LLM) como superior à sua própria, tornando essa uma estratégia interessante de avaliação de modelos em geral. Por exemplo, ao lermos capítulos de livros juntos com meu Conselho de Mestres em Direito hoje, os modelos consistentemente elogiaram o GPT 5.1 como o melhor e mais perspicaz modelo, e consistentemente selecionaram o modelo de Claude como o pior, com os outros modelos ficando em posições intermediárias. Mas não estou 100% convencido de que isso esteja alinhado com minha própria avaliação qualitativa. Por exemplo, qualitativamente, considero o GPT 5.1 um pouco prolixo e disperso, e o Gemini 3 um pouco mais conciso e objetivo. Claude é muito sucinto nesse aspecto. Dito isso, provavelmente existe todo um espaço de design para o fluxo de dados do seu conselho de mestrado em direito (LLM). A construção de conjuntos de LLM parece pouco explorada. Eu enviei o aplicativo Vibe Coded para https://t.co/EZyOqwXd2k Se outros quiserem jogar. Obrigado Nano Banana Pro pela diversão. Imagem de cabeçalho para o repositório.

Thread de Andrej Karpathy (@karpathy)

Informações do autor

Conteúdo da thread