X (Twitter)

[Recommandation Open Source] Conseil LLM : Le projet « Vibe Coding » d’Andrej Karpathy, mené durant le week-end, améliore la qualité des réponses de l’IA grâce à la collaboration multi-modèles. Imaginez un « conseil » virtuel où plusieurs modèles d’IA se réunissent autour d’une table ronde pour discuter des requêtes des utilisateurs, des premières réponses à la synthèse finale. L'idée initiale de Karpathy était d'utiliser les modèles linguistiques pour faciliter la lecture et de prédire que les écrits futurs se concentreraient davantage sur la compréhension de ces modèles plutôt que sur leur simple orientation humaine. Ce projet constitue une extension pratique de cette idée, combinant plusieurs modèles linguistiques au sein d'un « conseil » afin de simuler un processus de délibération collective. Karpathy a observé que l'évaluation mutuelle entre les modèles reconnaissait souvent avec humilité le travail des autres, révélant ainsi le potentiel d'une conception intégrée des modèles linguistiques – un domaine encore largement inexploré. Dépôt GitHub : llm-council https://t.co/yFBqjm4IVU Une application web locale simulant un « comité consultatif d'IA multi-modèles » pour générer des réponses plus fiables et pertinentes à des requêtes complexes (comme la lecture de chapitres de livres). Elle se connecte à plusieurs modèles logiques via l'API OpenRouter afin d'éviter les biais liés à un modèle unique. Le projet possède un code concis (backend Python + frontend React), est facilement personnalisable et privilégie la robustesse expérimentale à la robustesse en production. Caractéristiques principales : Réponse parallèle multi-modèles : Les requêtes des utilisateurs sont distribuées simultanément aux modèles du conseil, affichant une vue latérale de la réponse pour une comparaison facile. • Mécanisme d'évaluation par les pairs anonyme : les modèles évaluent les résultats des autres (sans révéler leur identité) et les notent en fonction de leur exactitude et de leur profondeur. Cette étape met en évidence des différences dans la perception que les modèles ont d'eux-mêmes. • Synthèse du président : Spécifie le modèle permettant d’intégrer les résultats du classement et de fournir la réponse finale. • Stockage local : l’historique des conversations est enregistré dans un fichier JSON pour faciliter sa consultation. Flux de travail (trois étapes) 1. Première phase : Des requêtes d’opinion initiales sont envoyées à tous les modèles (par exemple, GPT-5.1, Gemini-3-Pro, Claude-Sonnet-4.5, Grok-4), et chaque modèle génère une réponse indépendamment. L’interface affiche des fiches côte à côte, mettant en évidence les différences (par exemple, GPT est plus détaillé, Gemini est plus concis). 2. Deuxième étape : Évaluation et classement. Chaque modèle reçoit un ensemble de réponses anonymes, évalue et classe les résultats des autres. Des exemples de questions encouragent l’objectivité : « Quel est le plus précis ? Lequel apporte les informations les plus pertinentes ? » Cette étape révèle les préférences entre les modèles et donne souvent lieu à des éloges réciproques. 3. Troisième étape : Le modèle de réponse finale (par défaut Gemini-3-Pro) reçoit toutes les analyses, synthétise les résultats et attribue un classement aux sources. Les résultats sont souvent plus équilibrés et la redondance est réduite.

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil