Je suis tellement triste. SOTA, c'est juste pour la forme ; pour le vrai travail, il faut toujours compter sur les « bœufs et les chevaux » (en référence aux employés les plus performants). Alex Atallah, le fondateur d'OpenRouter, vient de tweeter que sa version la plus utilisée est toujours Kimi-K2-0711 (la Kimi-K2-Instruct de juillet). Il y a ensuite openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b et openai-o3. Ma première pensée a été : « Cette personne était-elle hors ligne ? N'a-t-elle pas utilisé un nouveau modèle plus grand depuis longtemps ? » Mais à y regarder de plus près, quelque chose cloche. Voilà comment un utilisateur avancé devrait être utilisé : c’est tellement réaliste ! Si nous devions en trouver un à ce stade qui possède un contexte suffisamment large (128K), des performances adéquates (SWE-Bench Verified > 65), de fortes capacités d'agent (Tau2-bench > 65), une vaste base de connaissances (un nombre considérable de paramètres) et un temps de réponse rapide (pas un modèle Thinking), il semble que seul Kimi-K2-Instruct soit approprié. En remontant le fil, le travail d'Alex Atallah consiste probablement principalement à traiter des documents (contextes longs, notamment avec le jeton de 13,4 millions de caractères), à les analyser à l'aide d'outils et à rédiger des rapports (fonctionnalités de l'agent). Kimi-K2-Instruct peut gérer tout cela, puis il écrit des scripts (avec o4 et Claude-3.7-Sonnet comme solutions de repli, voire en les intégrant dans des agents afin que Kimi-k2 puisse appeler ces modèles pour écrire des scripts). Enfin, Kimi-k2 répond également au critère le plus important : la confidentialité des données. Grâce à ses poids ouverts, le modèle peut être déployé sur ses propres serveurs, sans qu’aucune information sensible ne soit divulguée à OpenAI ou à Anthropic. L’existence même de GPT-OSS-120B, mentionnée ci-dessous, s’explique probablement par cette même raison. Je crois comprendre pourquoi les nouveaux modèles à grande échelle dépendent désormais fortement des capacités des agents. L'utilisation directe de l'IA par les humains n'est qu'une étape intermédiaire ; les utilisateurs avancés utilisent déjà l'IA pour piloter d'autres IA. Un modèle d'agent spécialisé, utilisé pour envoyer et recevoir toutes les informations contextuelles relatives à l'IA, deviendra inévitablement l'un des plus utilisés. Message original :
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.

