Je pensais bien connaître l'ingénierie des prompts, jusqu'à ce que j'essaie d'écrire une série d'articles sur les agents d'IA. Je me suis alors rendu compte que ma compréhension de l'ingénierie des prompts était superficielle. --- GPT-2 possède 1,5 milliard de paramètres, contre 117 millions pour GPT. La taille des données d'entraînement de GPT-2 est de 40 Go de texte, tandis que celle de GPT n'est que de 4,5 Go. Cette augmentation d'un ordre de grandeur de la taille du modèle et de la taille des données d'entraînement engendre une qualité émergente sans précédent : Les chercheurs n'ont plus besoin d'optimiser GPT-2 pour une tâche unique. Ils peuvent désormais appliquer directement le modèle pré-entraîné, sans optimisation, à une tâche spécifique, et dans de nombreux cas, il surpasse même les modèles de pointe spécifiquement optimisés pour cette tâche. GPT-3 a réalisé une nouvelle amélioration d'un ordre de grandeur tant en termes de taille du modèle que de taille des données d'entraînement, accompagnée d'un bond significatif en matière de capacités. L'article de 2020 intitulé « Language Models Are Few-Shot Learners » montre qu'en fournissant à un modèle seulement quelques exemples de tâches (c'est-à-dire des exemples dits « few-shot »), le modèle peut reproduire avec précision les schémas de l'entrée, accomplissant ainsi presque toutes les tâches linguistiques imaginables, et souvent avec des résultats de très haute qualité. C’est à ce stade que l’on a compris qu’en modifiant l’entrée (c’est-à-dire l’invite), on pouvait contraindre le modèle à exécuter la tâche précise requise. L’ingénierie des invites était née à ce moment-là. ---
C'est ainsi que fonctionnent les humains. Les personnes intelligentes, si vous leur donnez un seul mot-clé, peuvent presque reconstituer toute l'histoire.