X (Twitter)

Como proyecto de código para un sábado divertido y siguiendo este tweet anterior, diseñé una aplicación web **llm-council**. Se ve exactamente como ChatGPT, excepto que cada consulta de usuario 1) se envía a varios modelos de tu ayuntamiento mediante OpenRouter, por ejemplo: "openai/gpt-5.1", "google/gemini-3-pro-preview", "antrópico/claude-sonnet-4.5", "x-ai/grok-4", Luego, 2) todos los modelos pueden ver las respuestas de los demás (anónimas) y las revisan y clasifican, y luego, 3) un "Presidente LLM" obtiene todo eso como contexto y produce la respuesta final. Es interesante ver los resultados de múltiples modelos uno al lado del otro en la misma consulta y, aún más divertido, leer sus evaluaciones y clasificaciones de las respuestas de cada uno. Con frecuencia, los modelos se muestran sorprendentemente dispuestos a seleccionar la respuesta de otro LLM como superior a la suya, lo que la convierte en una interesante estrategia de evaluación de modelos en general. Por ejemplo, al leer capítulos de libros junto con mi Consejo de LLM hoy, los modelos elogian constantemente GPT 5.1 como el mejor y más perspicaz modelo, y seleccionan constantemente a Claude como el peor modelo, con los demás modelos en un punto intermedio. Sin embargo, no estoy completamente convencido de que esto coincida con mi propia evaluación cualitativa. Por ejemplo, cualitativamente encuentro GPT 5.1 demasiado prolijo y extenso, y Gemini 3 algo más condensado y elaborado. Claude es demasiado conciso en este aspecto. Dicho esto, probablemente exista todo un espacio de diseño para el flujo de datos de su consejo LLM. La construcción de conjuntos LLM parece poco explorada. Empujé la aplicación codificada por vibración a https://t.co/EZyOqwXd2k Si a otros les gustaría jugar, gracias nano banana pro por diversión, imagen de encabezado para el repositorio.

Hilo de Andrej Karpathy (@karpathy)

Información del autor

Contenido del hilo