Eu achava que sabia muito sobre engenharia de comandos, até tentar escrever uma série de artigos sobre agentes de IA. Foi aí que percebi que meu entendimento sobre o assunto era apenas superficial. --- O GPT-2 possui 1,5 bilhão de parâmetros, em comparação com os 117 milhões de parâmetros do GPT. O tamanho dos dados de treinamento do GPT-2 é de 40 GB de texto, enquanto o do GPT é de apenas 4,5 GB. Esse aumento de uma ordem de magnitude no tamanho do modelo e no tamanho dos dados de treinamento gera uma qualidade emergente sem precedentes: Os pesquisadores não precisam mais ajustar o GPT-2 para uma única tarefa. Em vez disso, podem aplicar diretamente o modelo pré-treinado, sem ajustes, a uma tarefa específica e, em muitos casos, ele supera até mesmo os modelos de última geração que foram ajustados especificamente para essa tarefa. O GPT-3 alcançou uma melhoria de uma ordem de magnitude tanto no tamanho do modelo quanto no tamanho dos dados de treinamento, acompanhada por um salto significativo em suas capacidades. O artigo de 2020 intitulado "Modelos de Linguagem São Aprendizes com Poucos Exemplos" demonstra que, ao fornecer a um modelo apenas alguns exemplos de tarefas (ou seja, os chamados exemplos de poucos exemplos), o modelo consegue reproduzir com precisão os padrões na entrada, realizando assim praticamente qualquer tarefa linguística imaginável — e frequentemente com resultados de altíssima qualidade. Foi nessa fase que as pessoas perceberam que, ao modificar a entrada — ou seja, o estímulo —, podiam restringir o modelo para executar a tarefa específica necessária. A engenharia de estímulos nasceu nesse momento. ---
É assim que os humanos são. Pessoas inteligentes, se você der a elas apenas uma palavra-chave, elas conseguem reconstruir quase toda a história para você.