X (Twitter)

[Recomendación de código abierto] Consejo LLM: El proyecto de fin de semana "Vibe Coding" de Andrej Karpathy mejora la calidad de las respuestas de la IA mediante la colaboración multimodelo. Imagine un escenario de "consejo" virtual donde múltiples modelos de IA se reúnen en una mesa redonda para debatir las consultas de los usuarios, desde las respuestas iniciales hasta la síntesis final. La idea inicial de Karpathy era usar LLM para facilitar la lectura y predecir que la escritura futura se centraría más en "hacer que LLM sea comprensible" que en estar simplemente orientada al ser humano. Este proyecto es una extensión práctica de esta idea, combinando múltiples LLM en un "consejo" para simular un proceso de deliberación colectiva. Karpathy observó que la evaluación mutua entre modelos a menudo reconocía "humildemente" el trabajo de otros, revelando el potencial del diseño integrado de LLM, un área que aún no se ha explorado a fondo. Repositorio de GitHub: llm-council https://t.co/yFBqjm4IVU Una aplicación web local que simula un "consejo asesor de IA multimodelo" para generar respuestas más fiables y perspicaces a consultas complejas (como la lectura de capítulos de libros). Se conecta a múltiples LLM mediante la API de OpenRouter para evitar el sesgo de un solo modelo. El proyecto cuenta con código conciso (backend de Python + frontend de React), es fácilmente personalizable y prioriza la robustez experimental sobre la de producción. Características principales: Respuesta paralela de múltiples modelos: las consultas de los usuarios se distribuyen simultáneamente a los modelos del consejo, mostrando una vista lateral de la respuesta para una fácil comparación. • Mecanismo de revisión por pares anónimo: Los modelos revisan los resultados de los demás (sin revelar sus identidades) y los califican según su precisión y profundidad. Este paso, curiosamente, expone las diferencias en la autopercepción de los modelos. • Síntesis del presidente: especifica el modelo para integrar los resultados de la clasificación y generar la respuesta final. • Almacenamiento local: el historial de conversaciones se guarda en un archivo JSON para facilitar su revisión. Flujo de trabajo (tres etapas) 1. Primera fase: Se envían consultas de opinión iniciales a todos los modelos (p. ej., GPT-5.1, Gemini-3-Pro, Claude-Sonnet-4.5, Grok-4), y cada modelo genera una respuesta de forma independiente. La interfaz muestra tarjetas paralelas, destacando las diferencias (p. ej., GPT es más detallado, Gemini es más conciso). 2. Segunda Etapa: Revisión y Clasificación. Cada modelo recibe un conjunto de respuestas anónimas, evalúa y clasifica los resultados de los demás. Ejemplos de preguntas fomentan la objetividad: "¿Cuál es el más preciso? ¿Cuál proporciona la mejor perspectiva?". Este paso revela las preferencias del modelo y suele implicar elogios entre modelos. 3. Tercera etapa: El modelo de respuesta final del presidente (Gemini-3-Pro por defecto) recibe todos los análisis, sintetiza resultados concisos y etiqueta las clasificaciones de las fuentes. Los resultados suelen ser más equilibrados y reducen la redundancia.

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo