O motivo pelo qual o ChatGPT gosta de usar hífens parece ainda não ter sido determinado, mas acabei de ver uma postagem em um blog analisando essa questão, que achei bastante interessante. Um ponto interessante é que a IA gosta particularmente de usar a palavra "delve" (explorar profundamente). A resposta para esse fenômeno é conhecida: RLHF (Aprendizagem por Reforço com Feedback Humano). Em termos simples, a etapa final no treinamento de um modelo de IA é contratar um grande número de "mentores" humanos para avaliar suas respostas. Muitos dos mentores contratados pela OpenAI estão localizados em países africanos como Quênia e Nigéria. No "inglês africano" falado nessas regiões, "delve" é uma palavra muito comum e apropriada. Então, quando a IA usou "aprofundar", os mentores africanos pensaram: "Essa é uma boa maneira de dizer isso" e deram uma nota alta. A IA então aprendeu: "Ah, o cliente gosta que eu use 'aprofundar'". Então, o hífen também serve para esse propósito? Seguindo essa linha de raciocínio, o autor investigou se os travessões também são usados com frequência no inglês africano. Mas não foi esse o caso! A frequência de travessões no inglês nigeriano (0,022% por palavra) é muito menor do que o nível médio no inglês geral (0,25% a 0,275%). Isso indica que os dois "acordeões" de IA, "delve" e "dash" (—), têm origens diferentes. O autor acabou por descobrir uma pista decisiva: o tempo. Como você deve se lembrar, o GPT-3.5, no final de 2022, não apresentava esse problema. Esse "vício em hífens" só se manifestou de fato no GPT-4 e no GPT-4o. Não é apenas a OpenAI; modelos do Google e da Anthropic, incluindo alguns grandes modelos chineses, começaram a usar traços. Então, quais mudanças comuns ocorreram nos dados de treinamento de todos os laboratórios de IA de 2022 a 2024? A resposta é: as empresas de IA estão enfrentando uma "escassez de dados" e estão freneticamente "alimentando" suas IAs com livros — especialmente "livros antigos". Em 2022, a IA dependia principalmente de dados disponíveis publicamente na internet e de livros eletrônicos pirateados (como os do LibGen). No entanto, esses dados rapidamente se tornaram insuficientes e sua qualidade inconsistente. Para tornar os modelos mais "cultos" e de "maior qualidade", empresas de IA (documentos judiciais mostram que a Anthropic iniciou esse trabalho em fevereiro de 2024, e a OpenAI o fez ainda antes) lançaram um projeto massivo: escanear livros físicos em larga escala, digitalizá-los e usá-los como dados de treinamento. Muito bem, aqui está a última peça do quebra-cabeça para resolver o caso. Já que a IA consumiu um grande número (possivelmente milhões) de livros em papel digitalizados, de que época são esses livros? Os livros em sites de e-books piratas são, em sua maioria, obras populares contemporâneas. No entanto, para "matar a fome" e burlar os direitos autorais, empresas de inteligência artificial escaneiam grande parte dos livros, que são obras mais antigas e já entraram em domínio público. O autor encontrou um estudo sobre a frequência do uso da pontuação em inglês, que mostrou: A frequência do uso do travessão na literatura inglesa atingiu o pico por volta de 1860 (aproximadamente 0,35%), e seu uso no final do século XIX e início do século XX foi muito maior do que no inglês contemporâneo. O autor dá um exemplo: no famoso livro Moby-Dick (publicado em 1851), o travessão aparece 1728 vezes! A verdade agora veio à tona: A inteligência artificial mais avançada que usamos hoje não aprende sua "pontuação" com a internet de 2020, mas sim com romances antigos de 1890. Para obter corpora de "alta qualidade", as empresas de IA alimentaram seus modelos com um grande número de obras literárias do final do século XIX e início do século XX. A IA aprendeu fielmente o estilo de escrita daquela época — incluindo seu fervoroso apreço por travessões. Naturalmente, o autor também reconhece que esta ainda é uma especulação baseada em evidências, e algumas questões menores permanecem sem resposta: 1. Por que a IA aprendeu apenas a usar travessões, mas não a falar como o capitão em Moby-Dick? Talvez o modelo tenha absorvido apenas o estilo "subconsciente" dos sinais de pontuação, sem absorver o vocabulário específico? 2. Existe uma explicação mais simples? Por exemplo, Sam Altman mencionou casualmente que eles descobriram que os tutores humanos do RLHF "pareciam preferir" respostas com travessões, por considerá-las mais "coloquiais", então eles "adicionavam mais". No entanto, considerando todos os fatores, a teoria da "análise de livros antigos" é atualmente a mais convincente. Ela explica perfeitamente por que o GPT-3.5 não conseguiu, enquanto os modelos posteriores ao GPT-4 (que foram todos treinados com uma grande quantidade de dados de livros novos) se tornaram coletivamente "viciados" em hífens. Se tiver interesse, você pode conferir o artigo original: https://t.co/BxRnoWxsnS
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.