X (Twitter)

C'est tellement intéressant que je n'ai pas pu résister à l'envie de faire réécrire un article par l'IA. Le mystère est résolu ! La vérité sur l'utilisation obsessionnelle des tirets par l'IA est en réalité… Les articles rédigés par une IA ont toujours une « saveur IA ». L'une des caractéristiques les plus évidentes, notamment dans l'écriture anglaise, est l'utilisation fréquente des tirets. Honnêtement, l'utilisation abusive des tirets par les modèles d'IA (surtout les versions postérieures à GPT-4) a atteint un niveau scandaleux. Le plus drôle, c'est qu'on ne peut quasiment pas le « corriger » à l'aide d'une invite. Un internaute a posté sur le forum OpenAI qu'il avait essayé diverses méthodes, telles que « Veuillez ne pas utiliser de tirets » et « Veuillez utiliser une ponctuation plus concise », mais que le modèle répondait « D'accord, je comprends » avant de revenir à la ponctuation précédente. Il y a quelque chose d'étrange dans toute cette histoire. Logiquement parlant, l'IA est un « répétiteur », et tous ses comportements devraient provenir de ses données d'entraînement. Mais pourquoi le tiret — qui n'est pas le signe de ponctuation le plus fréquemment utilisé en anglais moderne — est-il devenu le « préféré » de l'IA ? Il est intéressant de noter qu'il n'existe actuellement **aucune réponse définitive et universellement acceptée** à cette question au sein de l'industrie. Aujourd'hui, jouons au détective et, grâce à une analyse intéressante (de Sean Goedecke), découvrons les origines des "bizarreries d'écriture" de l'IA. Plusieurs suppositions « peu fiables » Avant de révéler la réponse la plus probable, il nous faut « déminer » le terrain et éliminer plusieurs théories largement répandues qui, à y regarder de plus près, se révèlent intenables. Hypothèse 1 : Il y en avait déjà beaucoup dans les données d'entraînement ? Voici l'hypothèse la plus intuitive : l'IA aime-t-elle l'utiliser parce que le matériel dont elle « apprend » — c'est-à-dire le texte anglais sur l'ensemble d'Internet — utilise beaucoup de tirets ? Au début, je n'y croyais pas vraiment. Réfléchissez-y : si les tirets étaient si courants dans l'écriture humaine, ils ne constitueraient pas un « défaut » aussi flagrant, n'est-ce pas ? La raison pour laquelle nous avons le sentiment que l'« IA » est forte est précisément parce que nous percevons intuitivement que l'IA utilise les tirets beaucoup plus fréquemment que l'humain moyen. Si l'IA utilise très souvent des virgules, cela vous dérangerait-il ? Non, car nous les utilisons tous de cette façon. Par conséquent, cette explication élude directement la question centrale : pourquoi l’IA la « préférerait-elle » ? Spéculation 2 : Le tiret serait-il une fonction « touche-à-tout », tandis que l’IA serait « paresseuse » ? Il existe une autre théorie, qui semble un peu « anthropomorphique ». Le problème, c'est que lorsque l'IA a du mal à prédire le mot suivant (Token), elle a réellement beaucoup de difficultés. Utiliser un tableau de bord, c'est comme se laisser une « porte de sortie ». Réfléchissez-y, un tiret — il peut introduire des explications supplémentaires, ouvrir une perspective totalement nouvelle, ou même indiquer un tournant. L'IA a-t-elle donc « calculé » et pensé que supprimer un tiret était la manière « la plus sûre » et « la plus polyvalente » de faire fonctionner la phrase suivante ? Je n'y crois pas vraiment non plus. Premièrement, d'autres signes de ponctuation (tels que les virgules et les points-virgules) sont également flexibles dans de nombreux contextes. Deuxièmement, j'ai toujours l'impression qu'appliquer des processus de pensée humains comme la « paresse » ou le fait de « prévoir une porte de sortie » aux principes de fonctionnement des grands modèles de langage est un peu… présomptueux. Le modèle se contente de « prédire le prochain jeton le plus probable » ; il n'a pas l'intention subjective de « jouer des tours ». Spéculation 3 : Pour « économiser de l'argent » (pour améliorer l'efficacité des jetons) ? Cet argument est un peu plus technique, mais c'est aussi le plus facile à réfuter. Cela a soulevé la notion d'efficacité des jetons. En termes simples : les grands modèles de langage ne traitent pas le texte mot par mot, mais décomposent les mots en « tokens ». Par exemple, « incroyable » pourrait être divisé en trois éléments : « in », « croire » et « capable ». Le coût de calcul de l'IA est directement lié au nombre de jetons qu'elle traite. La théorie est que l'IA a découvert qu'un simple tiret (valant 1 jeton) peut remplacer un tas de conjonctions verbeuses (telles que des expressions comme « donc » ou « ce qui signifie », qui pourraient coûter 2 à 3 jetons) ? L'utilisation des tirets peut « faire économiser de l'argent » ! Euh... cette explication ne me convainc toujours pas. Premièrement, dans la plupart des cas, le tiret peut être parfaitement remplacé par une virgule (qui n'occupe également qu'un seul caractère). Par exemple, l'IA écrit souvent : « Ce n'est pas X, c'est Y ». On pourrait facilement écrire : « Ce n'est pas X, c'est Y. » Personne n'économise plus de jetons qu'un autre. Deuxièmement, pensez-vous vraiment qu'un monstre comme GPT-4o se livrerait à une telle « microgestion » des signes de ponctuation pour optimiser les coûts ? Si le but était vraiment d'économiser des jetons, n'aurait-il pas été préférable d'arrêter de répéter sans cesse les mêmes vieilles phrases du genre « moins de blabla » ? Cela aurait permis d'économiser beaucoup de jetons. Par conséquent, les trois hypothèses « courantes » mentionnées ci-dessus ont été pour l'instant écartées. Alors, qui est le véritable coupable ? Approfondissons la question : la faute en incomberait-elle à RLHF ? À ce stade, nous devons aborder un sujet plus profond, un terme bien connu dans la communauté de l'IA : RLHF. Son nom complet est Apprentissage par renforcement avec retour d'information humain. Qu'est-ce que c'est que ça ? On peut globalement considérer cela comme les étapes de « formation préalable à l'emploi » et d'« évaluation des performances » de l'IA. Une fois le modèle (tel que GPT-4) entraîné, les entreprises spécialisées en IA embauchent des centaines, voire des milliers, d'« évaluateurs » humains pour discuter avec l'IA et noter ses réponses. « Cette réponse est trop verbeuse, je désapprouve ! » « Cette réponse m'a été très utile et a résolu mon problème. Bravo ! » Le modèle « reflétera » et « corrigera » continuellement sa façon de parler en fonction de ces « avis positifs » et « avis négatifs » humains afin de se rendre plus « utile » et plus « sympathique ». Très bien, voici la question. Pour réduire leurs coûts, les entreprises spécialisées en IA externaliseront sans aucun doute cette tâche de « notation ». Mais à qui ? La réponse est : les pays où le coût de la vie est plus bas mais où la population anglophone est importante. Par exemple, l’équipe principale d’OpenAI dédiée au RLHF est située au Kenya et au Nigeria, en Afrique. Cela conduit à une conséquence très intéressante : Le « goût » de l'IA est largement façonné par les « dialectes anglais » de ces annotateurs africains. L'un des exemples les plus célèbres est le mot « delve » (étudier en profondeur). Avez-vous remarqué ? GPT-4 affectionne particulièrement les mots recherchés qui sonnent un peu « intellectuels », tels que « delve », « explore » et « tapestry » (qui peut être interprété comme « blueprint » ou « scroll »). En effet, en anglais africain (variante de l'anglais des pays postcoloniaux), l'utilisation d'un vocabulaire aussi légèrement orné était considérée comme un signe de « culture » et de « maîtrise linguistique ». Lorsque les annotateurs kenyans ont vu que le modèle utilisait le mot « delve », ils étaient ravis : « Wow, c’est un excellent mot, très authentique ! Bravo ! » Du coup, le modèle a compris : Oh, les humains aiment que j'utilise "delve", alors je l'utiliserai plus souvent à l'avenir ! (Cette question a également suscité un important débat. Paul Graham avait critiqué ce terme, avant d'être « éclairé » par de nombreux universitaires indiens et nigérians qui lui ont fait remarquer qu'il ne comprenait pas les différences culturelles.) Le tiret pose-t-il également problème en « anglais africain » ? La question est donc la suivante : le même phénomène pourrait-il se produire avec les tirets ? Est-ce parce que les Nigérians qui parlent anglais ont tendance à beaucoup utiliser de tirets dans leur langage courant que les annotateurs préfèrent également les réponses contenant des tirets ? Cette supposition est absolument parfaite, n'est-ce pas ? Elle explique pourquoi « delve » et « dash » apparaissent ensemble. Cependant, l'auteur original, Sean Goedecke, est une personne méticuleuse, et il a effectivement vérifié les données. Il a trouvé un ensemble de données de « texte en anglais nigérian » puis a exécuté un programme pour compter la fréquence des tirets dans ce texte. Et devinez ce qui s'est passé ? Ces données sont une gifle. Les données montrent que dans cet ensemble de données en anglais nigérian, la fréquence du tiret (en pourcentage de tous les mots) est d'environ 0,022 %. Un article sur l'histoire de la ponctuation anglaise souligne que la fréquence des tirets dans les textes anglais contemporains fluctue entre 0,25 % et 0,275 %. Vous comprenez maintenant ? L'anglais nigérian (en tant que représentant de l'anglais africain) utilise les tirets beaucoup moins fréquemment que l'anglais général ! Par conséquent, cette piste est elle aussi devenue infructueuse. Il se peut que la RLHF et les étiqueteurs africains soient tenus responsables de l'erreur « delve » ; mais la responsabilité de l'erreur « dash » ne leur incombe pas vraiment. Le véritable « suspect » : un vieux livre du XIXe siècle Bon, après avoir écarté tant de possibilités, laissez-moi vous dire que l'explication suivante est la plus fiable et la plus convaincante que j'aie vue jusqu'à présent. Cela découle d'une observation très cruciale : Avez-vous remarqué quelque chose d'intéressant ? GPT-3.5 utilise très rarement des tirets ! Cette « particularité » n’a commencé à apparaître en grand nombre qu’avec GPT-4 (et GPT-4o). Claude d'Anthropic et Gemini de Google rencontrent également ce problème. Cela réduit la période à un peu plus d'un an, de la fin de 2022 (sortie de GPT-3.5) au début de 2024 (sortie de GPT-40). Que s'est-il passé exactement entre 2022 et 2024 ? Il n'y a qu'une seule réponse : La composition des données d'entraînement a subi un changement fondamental. Réfléchissez-y : en 2022, lorsque OpenAI a entraîné ses modèles, les données utilisées provenaient principalement de textes accessibles au public et extraits d'Internet (comme Wikipédia, les publications Reddit et les sites d'actualités), ainsi que d'une quantité massive de livres électroniques piratés « obtenus » sur des sites web comme LibGen et Z-Library. Cependant, lorsque les capacités des grands modèles ont stupéfié le monde en 2023, toutes les entreprises spécialisées en IA sont devenues folles. Ils ont immédiatement compris que les données d'entraînement de haute qualité étaient « le pétrole » et « l'or » du futur. Les contenus de piètre qualité que l'on trouve sur Internet ne satisfont plus la nouvelle génération de mannequins. Ils exigent des textes plus nombreux, de meilleure qualité et plus clairs. Où ont-ils jeté leur dévolu ? Livre physique. Les entreprises spécialisées en IA (OpenAI, Anthropic, Google, etc.) se sont lancées dans une « course aux armements de données » effrénée, ne ménageant aucun effort pour numériser massivement toutes les publications papier de l'histoire de l'humanité. (Les documents judiciaires d'Anthropic ont révélé qu'ils avaient commencé à travailler sur ce projet en février 2024. Bien qu'OpenAI ne l'ait pas explicitement déclaré, il est largement admis dans le secteur qu'ils ont commencé plus tôt et de manière plus agressive.) Très bien, voici le point de connexion crucial. Quelles sont les principales différences entre ces livres physiques nouvellement numérisés et les livres piratés disponibles auparavant sur LibGen ? La différence réside dans l'époque. Le contenu des sites de livres électroniques piratés est principalement axé sur la littérature contemporaine et les ouvrages populaires (comme Harry Potter, divers romans à succès et des manuels scolaires modernes), car c'est ce que les internautes souhaitent réellement télécharger et lire. Lorsque les entreprises spécialisées en IA tentent de « sauver » des données, elles vont assurément éplucher tous les livres d'histoire humaine qu'elles pourront trouver, en particulier les vieux ouvrages qui appartiennent depuis longtemps au « domaine public ». De quelle époque datent la plupart de ces livres ? Fin du XIXe et début du XXe siècle. Revenons-en maintenant à l'« article de recherche historique sur les signes de ponctuation » mentionné précédemment. Il renferme une découverte étonnante : L'utilisation des tirets dans l'écriture anglaise a atteint son apogée historique vers 1860 (environ 0,35 %). Elle a ensuite progressivement diminué, se stabilisant à un niveau de 0,25 % à 0,275 % après les années 1950. Regardez de plus près : les œuvres littéraires de la fin du XIXe et du début du XXe siècle (comme celles de Dickens et Melville) utilisaient des tirets près de 30 % plus fréquemment que l'anglais contemporain ! Par exemple, le célèbre livre « Moby-Dick » contient un nombre stupéfiant de 1 728 tirets ! La vérité a éclaté, n'est-ce pas ? C'est probablement l'explication la plus raisonnable : La raison pour laquelle les modèles d'IA utilisent autant les tirets n'est pas qu'ils aient « intelligemment » choisi un signe de ponctuation universel, ni en raison de la préférence des locuteurs africains de la ponctuation. Tout simplement parce que, dans la « course aux armements de données » de 2023, elle a été « nourrie » (pré-entraînée) de force avec une quantité massive de vieux livres « de haute qualité » datant du XIXe et du début du XXe siècle. Et ces livres… ce ne sont que des traits ! Cette « habitude d'écriture », telle une sorte d'« ADN grammatical » ancestral, est profondément ancrée dans le réseau neuronal du modèle. En résumé, et quelques petits problèmes que je n'ai pas encore tout à fait résolus. Très bien, passons en revue les étapes de ce processus de « résolution de cas » : 1. Explication structurelle (économie de jetons, polyvalence) : peu probable. GPT-3.5 ne présente pas ce problème, et il existe des contre-exemples (virgule). 2. Interprétation RLHF (préférence de l'annotateur) : Peu probable. Les données relatives à l'anglais africain réfutent la théorie dialectale. 3. Interprétation des données d'entraînement (contamination par un vieux livre) : très probable. Cela explique parfaitement pourquoi l'explosion a commencé avec GPT-4 (parce que la composition des données a changé), et explique aussi pourquoi l'utilisation de l'IA est supérieure au niveau moyen des humains contemporains (parce que ses « manuels » sont plus anciens que les nôtres). Personnellement (comme l'auteur original), je penche plutôt pour la troisième possibilité : la contamination des données d'entraînement (en particulier les ouvrages plus anciens). Mais cette affaire n'est pas encore terminée. Même si cette « théorie du vieux livre » est vraie, il reste quelques « points mineurs » que je ne comprends toujours pas. Problème 1 : Le paradoxe de Moby-Dick Voici la principale source de confusion : Si l'IA a véritablement « lu » les classiques du XIXe siècle, pourquoi son écriture ne ressemble-t-elle pas à Moby-Dick ou au Conte de deux villes ? Il se contentait de « voler » les signes de ponctuation d'autrui, sans parvenir à apprendre leur style d'écriture orné, complexe et ancien. J'ai ma propre idée à ce sujet. Il pourrait s'agir d'un résultat à la Frankenstein, causé par la formation par couches dont j'ai parlé précédemment. Vous pouvez l'imaginer comme ceci : 1. Phase de pré-entraînement : L’IA est comme un nourrisson, enfermé dans une pièce obscure, « avalant » de force des milliards de jetons, y compris Moby-Dick. Durant cette phase, elle apprend la grammaire, le vocabulaire, les faits et, accessoirement, le fameux « tiret », une expression devenue culte. À ce stade, son « âme » est ancrée dans le XIXe siècle. 2. Phase de « mise au point » (SFT et RLHF) : L’IA a mûri et est mise à disposition pour une « formation préalable à l’emploi ». Des milliers de rédacteurs linguistiques du XXIe siècle (dont des Kenyans) ont commencé à « remodeler » ses schémas de langage, le forçant à parler dans un « style contemporain » poli, amical et centré sur le client, propre au XXIe siècle (comme « Je suis heureux de vous aider » ou « En tant que modèle linguistique de grande envergure... »). Vous finissez donc par voir une IA dotée d'une «double personnalité» : Elle possède une « âme grammaticale du XIXe siècle » (d'où son amour des tirets), mais est contrainte d'adopter un « manteau de service client du XXIe siècle » (d'où son langage d'assistant IA). N'est-ce pas une sorte de cyberpunk ? Deuxième problème : RLHF est-elle vraiment « innocente » ? Une autre possibilité est que RLHF ne soit pas entièrement « innocent » non plus. Bien que la théorie du « dialecte africain » ait été réfutée, est-il possible que le tiret lui-même rende le texte plus « familier » ? Réfléchissez-y : quand on discute, on dit souvent des choses comme « euh… », « ça… » ou « je veux dire… » ? En termes de fonction, le tiret peut effectivement simuler cette « pause » et ce « supplément ». Peut-être que les annotateurs (où qu'ils soient) ont simplement pensé : « Waouh, cette réponse utilise des tirets, ce qui la rend moins rigide et plus comme une conversation, j'aime bien ! Bravo ! » Le PDG d'OpenAI, Sam Altman, a également mentionné de manière vague dans une interview qu'ils « (intentionnellement) ajouté plus de tirets parce que les utilisateurs aiment ce style ». Si tel est le cas, cela pourrait fonctionner en conjonction avec la « théorie du vieux livre » : Le vieux livre (pré-entraînement) a donné à l'IA la « capacité » et la « forte probabilité » d'utiliser des tirets ; tandis que l'étiqueteur (RLHF) a « renforcé » et « récompensé » cette capacité, la rendant encore plus prononcée. Épilogue : Un « interlude » sur Hacker News Après sa publication par son auteur original, l'article est devenu viral sur Hacker News (l'équivalent de Douban pour les programmeurs). Une autre théorie intéressante a émergé dans la section des commentaires, émanant du PDG de Medium (une plateforme de blogs). Le PDG a déclaré : « Arrêtez de deviner, je vais vous dire pourquoi ! Parce que Medium est une source de données d'entraînement de haute qualité. Et sur Medium, notre système convertit automatiquement les deux tirets (« -- ») saisis par l'utilisateur en un tiret standard (« - »). Voilà forcément la raison ! » Franchement, cette explication est totalement absurde. Comme beaucoup de passionnés de technologie, il est complètement passé à côté du sujet ! Nous n'allons pas discuter du caractère précis utilisé par l'IA (qu'il s'agisse de `—` ou `--`), mais plutôt de la raison pour laquelle elle a utilisé ce signe de ponctuation pour sa « fonction ». C’est-à-dire la fonction grammaticale de « interruption-supplémentation-transition » ! Même si les données d'entraînement de l'IA identifient de nombreux traits d'union (comme « state-of-the-art ») comme des tirets en raison d'erreurs de reconnaissance optique de caractères ou de conversion automatique, Cela apprendrait seulement au modèle à utiliser « incorrectement » les tirets dans des endroits comme « état de l'art », mais cela ne lui apprendrait pas à utiliser des tirets à la fin des phrases pour remplacer « donc » ! Ce sont deux choses complètement différentes. Après avoir tourné en rond, je penche toujours pour la théorie des « vieux livres du XIXe siècle ». Le plus intéressant, c'est que nous avons découvert que les schémas comportementaux de l'IA, ce monstre apparemment « intelligent », proviennent souvent de raisons inattendues, voire quelque peu « stupides ». Un petit signe de ponctuation est comme un fossile en « archéologie numérique ». Il renferme le secret de l'« évolution » des grands modèles d'IA.

Fil de 向阳乔木 (@vista8)

Informations sur l'auteur

Contenu du fil