X (Twitter)

Pour un petit projet de programmation amusant du samedi, et suite à ce tweet précédent, j'ai bricolé une application web **llm-council**. Elle ressemble exactement à ChatGPT, sauf que chaque requête utilisateur est 1) distribuée à plusieurs modèles de votre conseil via OpenRouter, par exemple actuellement : "openai/gpt-5.1", "google/gemini-3-pro-preview", "anthropique/claude-sonnet-4.5", "x-ai/grok-4", Ensuite 2) tous les modèles voient les réponses (anonymisées) des autres, les examinent et les classent, puis 3) un « président LLM » reçoit tout cela comme contexte et produit la réponse finale. Il est intéressant de voir les résultats de plusieurs modèles côte à côte sur une même requête, et plus amusant encore, de lire leurs évaluations et classements respectifs des réponses. Bien souvent, les modèles sont étonnamment enclins à considérer la réponse d'un autre LLM comme supérieure à la leur, ce qui constitue une stratégie d'évaluation intéressante de manière plus générale. Par exemple, lors de la lecture de chapitres de livres avec mon conseil LLM aujourd'hui, les modèles ont systématiquement encensé GPT 5.1 comme le meilleur et le plus pertinent, et ont systématiquement désigné Claude comme le pire, les autres modèles se situant entre les deux. Cependant, je ne suis pas entièrement convaincu que cela corresponde à ma propre évaluation qualitative. Par exemple, qualitativement, je trouve GPT 5.1 un peu trop verbeux et décousu, et Gemini 3 un peu plus concis et structuré. Claude est trop laconique dans ce domaine. Cela dit, il existe probablement tout un champ de conception pour le flux de données de votre conseil LLM. La construction d'ensembles LLM semble encore peu explorée. J'ai poussé l'application Vibe Coded vers https://t.co/EZyOqwXd2k Si d'autres veulent jouer. Merci Nano Banana Pro pour l'image d'en-tête amusante du dépôt

Fil de Andrej Karpathy (@karpathy)

Informations sur l'auteur

Contenu du fil