X (Twitter)

[Recomendação de código aberto] Conselho LLM: O projeto de fim de semana "Vibe Coding" de Andrej Karpathy aprimora a qualidade das respostas de IA por meio da colaboração entre múltiplos modelos. Imagine um cenário de "conselho" virtual onde vários modelos de IA se sentam ao redor de uma mesa redonda, discutindo as consultas dos usuários, desde as respostas iniciais até a síntese final. A ideia inicial de Karpathy era usar LLMs para auxiliar a leitura e prever que a escrita futura se concentraria mais em "tornar os LLMs compreensíveis" do que simplesmente em serem orientados para o ser humano. Este projeto é uma extensão prática dessa ideia, combinando múltiplos LLMs em um "conselho" para simular um processo de deliberação coletiva. Karpathy observou que a avaliação mútua entre os modelos frequentemente reconhecia "humildemente" o trabalho dos outros, revelando o potencial do design integrado de LLMs — uma área que ainda não foi totalmente explorada. Repositório GitHub: llm-council https://t.co/yFBqjm4IVU Uma aplicação web local que simula um "conselho consultivo de IA multimodelos" para gerar respostas mais confiáveis e perspicazes a consultas complexas (como a leitura de capítulos de livros). Ela se conecta a múltiplos modelos de linguagem natural (LLMs) através da API OpenRouter para evitar o viés de um único modelo. O projeto possui código conciso (backend em Python + frontend em React), é facilmente personalizável e prioriza a robustez experimental em vez da robustez para produção. Principais características: Resposta paralela multimodelo: As consultas do usuário são distribuídas simultaneamente aos modelos do conselho, exibindo uma visão lateral da resposta para facilitar a comparação. • Mecanismo de revisão por pares anônimo: Os modelos revisam os resultados uns dos outros (sem revelar suas identidades) e os classificam com base na precisão e profundidade. Essa etapa, de forma interessante, expõe diferenças na "autopercepção" dos modelos. • Síntese do Presidente: Especifica o modelo para integrar os resultados da classificação e gerar a resposta final. • Armazenamento local: O histórico da conversa é salvo em um arquivo JSON para facilitar a revisão. Fluxo de trabalho (três etapas) 1. Primeira Fase: Consultas iniciais de opinião são enviadas a todos os modelos (por exemplo, GPT-5.1, Gemini-3-Pro, Claude-Sonnet-4.5, Grok-4), e cada modelo gera uma resposta de forma independente. A interface exibe cartões lado a lado, destacando as diferenças (por exemplo, o GPT é mais detalhado, o Gemini é mais conciso). 2. Segunda Etapa: Revisão e Classificação. Cada modelo recebe um conjunto de respostas anônimas, avalia e classifica os resultados dos outros. Exemplos de perguntas incentivam a objetividade: "Qual é o mais preciso? Qual fornece a melhor visão geral?" Esta etapa revela as preferências dos modelos e frequentemente envolve "elogios entre os modelos". 3. Terceira etapa: O modelo de resposta final (padrão Gemini-3-Pro) recebe todas as análises, sintetiza a saída concisa e rotula as classificações das fontes. Os resultados costumam ser mais equilibrados e reduzem a redundância.

Thread de meng shao (@shao__meng)

Informações do autor

Conteúdo da thread