La raison pour laquelle ChatGPT utilise des tirets semble indéterminée pour le moment, mais je viens de voir un article de blog analysant ce problème, et c'était assez intéressant. Un point intéressant est que l'IA aime particulièrement utiliser le mot « approfondir » (explorer en profondeur). La réponse à ce phénomène est connue : RLHF (apprentissage par renforcement avec rétroaction humaine). En clair, la dernière étape de l'entraînement d'un modèle d'IA consiste à recruter un grand nombre de « mentors » humains pour évaluer ses réponses. Nombre de ces mentors, employés par OpenAI, sont basés dans des pays africains comme le Kenya et le Nigeria. Dans l'anglais africain parlé dans ces régions, « delve » est un terme très courant et approprié. Ainsi, lorsque l'IA a utilisé « delve », les mentors africains ont pensé : « C'est une bonne façon de le formuler », et lui ont attribué une note élevée. L'IA a alors appris : « Ah, le client apprécie que j'utilise "delve". » Le tiret sert-il aussi à cela ? Poursuivant ce raisonnement, l'auteur a cherché à savoir si les tirets étaient également fréquemment utilisés en anglais africain. Mais ce n'était pas le cas ! La fréquence des tirets en anglais nigérian (0,022 % par mot) est bien inférieure au niveau moyen en anglais général (0,25 % à 0,275 %). Cela indique que les deux « accordéons » d'IA, « delve » et « dash » (—), ont des origines différentes. L'auteur a fini par découvrir un indice décisif : le temps. Pour rappel, GPT-3.5, sorti fin 2022, ne présentait pas ce problème. Cette « dépendance au tiret » ne s'est réellement manifestée qu'avec GPT-4 et GPT-4o. Il n'y a pas que OpenAI ; des modèles de Google et d'Anthropic, y compris certains grands modèles chinois, ont commencé à utiliser des tirets. Quels changements communs sont donc survenus dans les données d'entraînement de tous les laboratoires d'IA entre 2022 et 2024 ? La réponse est la suivante : les entreprises spécialisées en IA sont confrontées à une « pénurie de données » et elles « alimentent » frénétiquement leurs IA avec des livres, en particulier des « livres anciens ». En 2022, l'IA s'appuyait principalement sur des données publiques disponibles sur Internet et sur des livres numériques piratés (comme ceux disponibles sur LibGen). Cependant, ces données sont rapidement devenues insuffisantes et leur qualité s'est dégradée. Pour rendre les modèles plus « cultivés » et de « meilleure qualité », les sociétés d'IA (les documents judiciaires montrent qu'Anthropic a commencé ce travail en février 2024 et qu'OpenAI l'a fait encore plus tôt) ont lancé un projet massif : numériser des livres physiques à grande échelle et les utiliser comme données d'entraînement. Très bien, voici la dernière pièce du puzzle pour résoudre cette affaire. Étant donné que l'IA a consommé un grand nombre (peut-être des millions) de livres papier numérisés, de quelle époque datent ces livres ? Les livres disponibles sur les sites de piratage de livres numériques sont principalement des ouvrages populaires contemporains. Cependant, afin de s'assurer un revenu suffisant et de contourner les droits d'auteur, des entreprises spécialisées dans l'intelligence artificielle analysent une grande partie de ces livres, qui sont des œuvres plus anciennes déjà tombées dans le domaine public. L'auteur a trouvé une étude sur la fréquence d'utilisation de la ponctuation anglaise, qui montrait : La fréquence d'utilisation du tiret dans la littérature anglaise a culminé vers 1860 (environ 0,35 %), et son utilisation à la fin du XIXe et au début du XXe siècle était bien plus élevée qu'en anglais contemporain. L'auteur donne un exemple : dans le célèbre livre Moby-Dick (publié en 1851), le tiret apparaît 1728 fois ! La vérité a maintenant éclaté au grand jour : L'intelligence artificielle la plus avancée que nous utilisons aujourd'hui n'apprend pas sa « ponctuation » sur Internet en 2020, mais plutôt dans de vieux romans de 1890. Afin d'obtenir des corpus de « haute qualité », les entreprises spécialisées en IA ont alimenté leurs modèles avec un grand nombre d'œuvres littéraires de la fin du XIXe et du début du XXe siècle. L'IA a fidèlement appris le style d'écriture de cette époque, y compris son goût prononcé pour les tirets. Bien entendu, l'auteur reconnaît également qu'il s'agit encore d'une hypothèse fondée sur des preuves, et que quelques questions mineures restent sans réponse : 1. Pourquoi l'IA a-t-elle seulement appris à utiliser des tirets et non à parler comme le capitaine de Moby-Dick ? Le modèle a-t-il seulement assimilé le style « subconscient » de la ponctuation, sans intégrer le vocabulaire spécifique ? 2. Existe-t-il une explication plus simple ? Par exemple, Sam Altman a mentionné un jour, comme ça, qu’ils avaient constaté que les tuteurs humains de RLHF « semblaient préférer » les réponses avec des tirets, les trouvant plus « familières », alors ils « en ont ajouté davantage ». Cependant, tout bien considéré, la théorie du « scan des vieux livres » est actuellement la plus convaincante. Elle explique parfaitement pourquoi GPT-3.5 n'y est pas parvenu, tandis que les modèles postérieurs à GPT-4 (tous entraînés sur une grande quantité de données de livres récents) sont collectivement devenus « accros » aux tirets. Si cela vous intéresse, vous pouvez consulter l'article original : https://t.co/BxRnoWxsnS
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.