Je pensais bien connaître l'ingénierie des prompts, jusqu'à ce que j'essaie d'écrire une série d'articles sur les agents d'IA. Je me suis alors rendu compte que ma compréhension de l'ingénierie des prompts était superficielle. --- GPT-2 possède 1,5 milliard de paramètres, contre 117 millions pour GPT. Son ensemble de données d'entraînement représente 40 Go de texte, contre seulement 4,5 Go pour GPT. Cette augmentation considérable de la taille du modèle et des données d'entraînement confère une qualité émergente sans précédent : les chercheurs n'ont plus besoin d'optimiser GPT-2 pour chaque tâche, mais peuvent appliquer directement le modèle pré-entraîné, non optimisé, à des tâches spécifiques. Dans de nombreux cas, ses performances surpassent même celles des modèles de pointe spécifiquement optimisés pour ces tâches. GPT-3 a permis une amélioration considérable de la taille du modèle et de l'échelle des données d'entraînement, accompagnée d'un bond significatif en termes de capacités. L'article de 2020 intitulé « Language Models Are Few-Shot Learners » a démontré qu'en fournissant au modèle seulement quelques exemples de tâches (les exemples « few-shot »), celui-ci pouvait reproduire fidèlement les schémas présents dans l'entrée, et ainsi réaliser presque toutes les tâches linguistiques imaginables, souvent avec des résultats de très haute qualité. C'est à ce stade que l'on a compris qu'en modifiant l'entrée (c'est-à-dire l'invite), le modèle pouvait être contraint, de manière conditionnelle, à effectuer des tâches spécifiques. L'ingénierie des invites était née à ce moment-là. ---
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.