Isso é tão interessante que não resisti à tentação de pedir à IA para reescrever um artigo. O mistério foi resolvido! A verdade por trás do uso obsessivo de traços pela IA é, na verdade... Artigos escritos por IA sempre têm um "toque de IA". Uma das características mais óbvias, especialmente na escrita inglesa, é o uso frequente de travessões. Sinceramente, o abuso de hífens por modelos de IA (especialmente versões posteriores ao GPT-4) atingiu um nível absurdo. O mais engraçado é que você dificilmente consegue "corrigir" isso usando uma dica. Um internauta publicou no fórum da OpenAI que tentou vários métodos, como "Por favor, não use travessões" e "Por favor, use uma pontuação mais concisa", mas o modelo respondia "Ok, entendi" e, em seguida, voltava a usar a pontuação como antes. Há algo de estranho em toda essa situação. Logicamente falando, a IA é um "repetidor", e todos os seus comportamentos devem derivar dos dados de treinamento. Mas por que o travessão — que não é o sinal de pontuação mais usado no inglês moderno — se tornou o "favorito" da IA? Curiosamente, atualmente **não existe uma resposta definitiva e universalmente aceita** para essa pergunta dentro do setor. Hoje, vamos bancar os detetives e, junto com uma análise interessante (de Sean Goedecke), desvendar as origens das "peculiaridades de escrita" da IA. Vários palpites "não confiáveis" Antes de revelar a resposta mais provável, precisamos "limpar o mato" e eliminar diversas teorias amplamente divulgadas que, após uma análise mais detalhada, se mostram insustentáveis. Especulação 1: Já havia muito disso nos dados de treinamento? Esta é a hipótese mais intuitiva: será que a IA gosta de usar travessões porque o material do qual ela "aprende" — ou seja, o texto em inglês em toda a internet — usa travessões com frequência? Inicialmente, não acreditei muito nessa explicação. Pense bem: se os travessões fossem tão comuns na escrita humana, não seriam uma "falha" tão gritante, certo? O motivo pelo qual consideramos a "IA" forte é precisamente porque intuitivamente percebemos que a IA usa travessões com muito mais frequência do que o ser humano médio. Se a IA usa vírgulas com muita frequência, você se importaria? Não, porque todos nós as usamos dessa forma também. Portanto, essa explicação evita diretamente a questão central: por que a IA "preferiria" isso? Especulação 2: O dash é uma função "faz-tudo", enquanto a IA é "preguiçosa"? Existe outra teoria, que soa um pouco "antropomórfica". A questão é que, quando a IA tem dificuldade em prever a próxima palavra (Token), ela está realmente "com dificuldades". Usar um hífen é como deixar uma "porta dos fundos" para si mesmo. Pense bem: um travessão pode introduzir explicações complementares, abrir uma perspectiva completamente nova ou até mesmo indicar uma virada. Então, será que a IA "calculou" e concluiu que usar um travessão era a maneira "mais segura" e "mais versátil" de fazer a frase seguinte funcionar de alguma forma? Eu também não acredito nisso. Em primeiro lugar, outros sinais de pontuação (como vírgulas e ponto e vírgulas) também são flexíveis em muitos contextos. Em segundo lugar, sempre acho que aplicar processos de pensamento humano como "preguiça" ou "deixar uma saída" aos princípios de funcionamento de grandes modelos de linguagem é um pouco... presunçoso. O modelo está simplesmente "prevendo o próximo token mais provável"; ele não tem a intenção subjetiva de "fazer truques". Especulação 3: Para "economizar dinheiro" (para melhorar a eficiência dos tokens)? Este argumento é um pouco mais técnico, mas também é o mais fácil de refutar. Isso trouxe à tona um conceito chamado eficiência de token. Simplificando: os grandes modelos de linguagem não processam o texto palavra por palavra, mas dividem as palavras em "tokens". Por exemplo, "inacreditável" pode ser dividido em três palavras: "in", "acreditar" e "capaz". O custo computacional da IA está diretamente relacionado ao número de tokens que ela processa. A teoria é que a IA descobriu que um único travessão (que vale 1 ficha) pode substituir uma série de conjunções verbosas (como frases como "portanto" ou "o que significa", que podem custar 2 a 3 fichas)? Usar travessões pode "economizar dinheiro"! Hum... essa explicação ainda não me convence totalmente. Em primeiro lugar, na maioria dos casos, o travessão pode ser perfeitamente substituído por uma vírgula (que também ocupa apenas 1 caractere). Por exemplo, a IA costuma escrever: "Não é X — é Y". Isso poderia ser facilmente escrito como: "Não é X, é Y." Ninguém guarda mais fichas do que ninguém. Em segundo lugar, você realmente acha que um gigante como o GPT-40 se envolveria em tal "micromanagement" de sinais de pontuação para otimizar custos? Se realmente quisessem economizar fichas, não teria sido melhor parar de repetir aquelas mesmas frases antigas de "menos enrolação"? Isso teria economizado muitas fichas. Portanto, as três hipóteses "convencionais" mencionadas acima foram basicamente descartadas. Afinal, quem é o verdadeiro culpado? Vamos analisar mais a fundo: será que a culpa é do RLHF? Neste ponto, precisamos falar sobre algo mais profundo, um termo bem conhecido na comunidade de IA: RLHF. O nome completo é Aprendizagem por Reforço com Feedback Humano. O que é isso? Você pode pensar nisso, em linhas gerais, como os estágios de "treinamento pré-emprego" e "avaliação de desempenho" da IA. Após o modelo (como o GPT-4) estar basicamente treinado, as empresas de IA contratam centenas ou milhares de "avaliadores" humanos para interagir com a IA e avaliar suas respostas. "Essa resposta é muito prolixa, não recomendo!" "Essa resposta foi muito útil e resolveu meu problema. Nota 10!" O modelo irá continuamente "refletir" e "corrigir" sua maneira de falar com base nessas "avaliações positivas" e "avaliações negativas" humanas para se tornar mais "útil" e mais "agradável". Certo, aqui está a questão. Para reduzir custos, as empresas de IA certamente terceirizarão esse trabalho de "pontuação". Mas para quem? A resposta é: países com custo de vida mais baixo, mas com grande população de falantes de inglês. Por exemplo, a principal equipe de RLHF da OpenAI está localizada no Quênia e na Nigéria, na África. Isso leva a uma consequência muito interessante: O "gosto" da IA é amplamente moldado pelos "dialetos do inglês" desses anotadores africanos. Um dos exemplos mais famosos é a palavra "delve" (estudar em profundidade). Você já reparou? O GPT-4 tem uma predileção especial por usar palavras sofisticadas que soam um pouco "intelectuais", como "delve" (aprofundar), "explore" (explorar) e "tapestry" (tapeçaria) (que pode ser interpretada como "blueprint" (planta) ou "scroll" (pergaminho). Isso porque, no inglês africano (uma variante do inglês originária de países pós-coloniais), o uso de um vocabulário ligeiramente rebuscado era visto como sinal de "cultura" e "proficiência linguística". Quando os anotadores quenianos viram que o modelo usava a palavra "delve" (aprofundar), ficaram radiantes: "Uau, que palavra ótima, muito autêntica! Nota máxima!" Como resultado, o modelo entendeu: Ah, humanos como eu gostam de usar "delve", então vou usá-lo com mais frequência no futuro! (Essa questão também gerou um grande debate. Paul Graham chegou a criticar o termo, mas foi "corrigido" por muitos acadêmicos indianos e nigerianos que disseram que ele não entendia as diferenças culturais.) O hífen também é um problema no "inglês africano"? Então, eis a questão: o mesmo poderia acontecer com travessões? Será que o fato de as pessoas que falam inglês na Nigéria terem o hábito de usar travessões no seu dia a dia faz com que os anotadores também prefiram respostas com travessões? Essa hipótese é absolutamente perfeita, não é? Ela explica por que "delve" e "dash" aparecem juntos. No entanto, o autor original, Sean Goedecke, é uma pessoa meticulosa e realmente foi verificar os dados. Ele encontrou um conjunto de dados de "texto em inglês nigeriano" e então executou um programa para contar a frequência de travessões nesse texto. E adivinhe o que aconteceu? Os dados são um tapa na cara. Os dados mostram que, nesse conjunto de dados do inglês nigeriano, a frequência do travessão (em percentagem de todas as palavras) é de aproximadamente 0,022%. Um artigo sobre a história da pontuação inglesa aponta que a frequência de travessões em textos ingleses contemporâneos varia entre 0,25% e 0,275%. Agora você entendeu? O inglês nigeriano (como representante do inglês africano) usa travessões com muito menos frequência do que o inglês padrão! Portanto, essa pista também esfriou. A RLHF e os rotuladores africanos podem ter que assumir a culpa pelo erro "delve"; mas a culpa pelo erro "dash" realmente não recai sobre eles. O verdadeiro "suspeito": um livro antigo do século XIX. Bem, depois de descartar tantas possibilidades, deixe-me dizer que a explicação a seguir é a mais confiável e convincente que vi até agora. Isso deriva de uma observação crucial: Você notou algo interessante? O GPT-3.5 quase nunca usa hífens! Essa "peculiaridade" só começou a surgir em grande número com o GPT-4 (e o GPT-4o). Claude, da Anthropic, e Gemini, do Google, também apresentam esse problema. Isso reduz o período para pouco mais de um ano, do final de 2022 (lançamento do GPT-3.5) ao início de 2024 (lançamento do GPT-4.0). O que exatamente aconteceu entre 2022 e 2024? Só existe uma resposta: A composição dos dados de treinamento sofreu uma mudança fundamental. Pense bem: em 2022, quando a OpenAI treinou seus modelos, os dados utilizados provinham principalmente de textos disponíveis publicamente, extraídos da internet (como a Wikipédia, posts do Reddit e sites de notícias), além de uma enorme quantidade de e-books pirateados "obtidos" em sites como LibGen e Z-Library. No entanto, quando as capacidades dos grandes modelos chocaram o mundo em 2023, todas as empresas de IA enlouqueceram. Eles perceberam imediatamente que dados de treinamento de alta qualidade eram o "petróleo" e o "ouro" do futuro. O "lixo" da internet já não consegue satisfazer a nova geração de modelos. Eles precisam de mais texto, de maior qualidade e mais limpo. Para onde eles direcionaram seus olhares? Livro físico. Empresas de IA (OpenAI, Anthropic, Google, etc.) lançaram uma frenética "corrida armamentista de dados", não poupando esforços para digitalizar e escanear em massa todas as publicações em papel da história da humanidade. (Os documentos judiciais da Anthropic revelaram que eles começaram a trabalhar nisso em fevereiro de 2024. Embora a OpenAI não tenha dito isso explicitamente, acredita-se amplamente no setor que eles começaram antes e de forma mais agressiva.) Certo, aqui está o ponto de conexão crucial. Quais são as principais diferenças entre esses livros físicos recém-digitalizados e os livros pirateados que estavam disponíveis no LibGen anteriormente? A diferença reside na época. O conteúdo em sites de e-books piratas tende principalmente para a literatura contemporânea e materiais de leitura populares (como Harry Potter, vários romances best-sellers e livros didáticos modernos), porque é isso que os internautas realmente querem baixar e ler. Quando empresas de IA tentam "resgatar" dados, elas certamente vasculharão todos os livros que conseguirem encontrar sobre a história da humanidade, especialmente aqueles livros antigos que há muito tempo estão em "domínio público". De que época são a maioria desses livros? Final do século XIX e início do século XX. Agora, voltemos ao "artigo de pesquisa histórica sobre sinais de pontuação" mencionado anteriormente. Contém uma descoberta incrível: O uso de travessões na escrita inglesa atingiu seu pico histórico por volta de 1860 (aproximadamente 0,35%). Em seguida, declinou gradualmente, estabilizando-se em um nível de 0,25% a 0,275% após a década de 1950. Observe novamente: obras literárias do final do século XIX e início do século XX (como as de Dickens e Melville) usavam travessões quase 30% mais frequentemente do que o inglês contemporâneo! Por exemplo, o famoso livro "Moby-Dick" contém o número impressionante de 1.728 travessões! A verdade veio à tona, não é? Essa é provavelmente a explicação mais razoável: O motivo pelo qual os modelos de IA usam travessões com tanta frequência não é porque eles "inteligentemente" escolheram algum sinal de pontuação universal, nem por causa da preferência de pontuadores africanos. Simplesmente porque, na "corrida armamentista de dados" de 2023, foi "alimentado" (pré-treinado) à força com uma quantidade enorme de livros antigos de "alta qualidade" dos séculos XIX e início do XX. E aqueles livros... são todos apenas traços! Esse "hábito de escrita", como um antigo "DNA gramatical", está profundamente enraizado na rede neural do modelo. Em resumo, e alguns pequenos problemas que ainda não consegui resolver. Certo, vamos analisar os passos desse processo de "resolução de casos": 1. Explicação estrutural (economia de tokens, uso geral): Improvável. O GPT-3.5 não tem esse problema e existem contraexemplos (vírgula). 2. Interpretação RLHF (preferência do anotador): Improvável. Os dados do inglês africano refutam a teoria do dialeto. 3. Interpretação dos dados de treinamento (contaminação por livros antigos): muito provável. Isso explica perfeitamente por que a explosão começou com o GPT-4 (porque a composição dos dados mudou), e também explica por que o uso de IA é maior do que o nível médio dos humanos contemporâneos (porque seus "livros didáticos" são mais antigos que os nossos). Pessoalmente (como o autor original), inclino-me mais para a terceira possibilidade: contaminação dos dados de treinamento (especialmente livros mais antigos). Mas este assunto ainda não está encerrado. Mesmo que essa "teoria do livro antigo" seja verdadeira, ainda existem algumas "questões menores" que eu ainda não entendo. Problema 1: O Paradoxo de Moby-Dick Essa é a maior fonte de confusão: Se a IA realmente "leu" os clássicos do século XIX, por que sua escrita não se parece com Moby Dick ou Um Conto de Duas Cidades? Simplesmente "roubou" os sinais de pontuação de outras pessoas, mas não aprendeu seu estilo de escrita ornamentado, complexo e antigo. Tenho a minha própria hipótese sobre isso. Isso pode ser um resultado "monstruoso como o de Frankenstein", causado pelo "treinamento em camadas" que mencionei anteriormente. Você pode imaginar assim: 1. Estágio de pré-treinamento: A IA é como um bebê, trancado em um quarto escuro, "engolindo" à força trilhões de tokens, incluindo Moby Dick. Neste estágio, ela aprende gramática, vocabulário, fatos e, incidentalmente, o "travessão", um bordão profundamente enraizado. Neste ponto, sua "alma" é do século XIX. 2. Fase de "ajuste fino" (SFT e RLHF): A IA amadureceu e está pronta para o "treinamento pré-trabalho". Milhares de editores de idiomas do século XXI (incluindo quenianos) começaram a "remodelar" seus padrões de fala, forçando-o a falar em um "estilo contemporâneo" do século XXI, educado, amigável e centrado no cliente (como "Fico feliz em ajudar" ou "Como um grande modelo de idioma..."). Então, o que você acaba vendo é uma IA com "personalidade dividida": Possui uma "alma gramatical do século XIX" (daí sua predileção por travessões), mas é obrigada a vestir uma "capa de atendimento ao cliente do século XXI" (daí sua fala como a de uma assistente de IA). Isso não é meio cyberpunk? Segundo problema: Será que o RLHF é realmente "inocente"? Outra possibilidade é que o RLHF também não seja totalmente "inocente". Embora a teoria do "dialeto africano" tenha sido refutada, será possível que o próprio travessão faça o texto parecer mais "coloquial"? Pense bem: quando conversamos, não costumamos dizer coisas como "hum...", "isso—" ou "quer dizer—"? Em termos de função, o travessão pode de fato simular essa "pausa" e "complemento". Talvez os anotadores (onde quer que estejam) simplesmente pensaram: "Uau, esta resposta usou travessões, o que a torna menos rígida e mais parecida com um 'bate-papo'. Gostei! Nota máxima!" O CEO da OpenAI, Sam Altman, também mencionou vagamente em uma entrevista que eles "(intencionalmente) adicionaram mais traços porque os usuários gostam desse estilo". Se assim for, então poderá funcionar em conjunto com a "teoria do livro antigo": O livro antigo (pré-treinamento) conferiu à IA a "capacidade" e a "alta probabilidade" de usar travessões; enquanto o rotulador (RLHF) "reforçou" e "recompensou" essa capacidade, tornando-a ainda mais pronunciada. Epílogo: Um "Interlúdio" no Hacker News Após a publicação do artigo pelo autor original, ele viralizou no Hacker News (o equivalente ao Douban para programadores). Outra teoria interessante surgiu na seção de comentários, vinda do CEO do Medium (uma plataforma de blogs). O CEO disse: "Pare de adivinhar, eu vou te dizer por quê! Porque o Medium é uma fonte de dados de treinamento de alta qualidade. E no Medium, nosso sistema converte automaticamente os dois hífens (`--`) inseridos pelo usuário em um travessão padrão (`—`). Deve ser esse o motivo!" Sinceramente, essa explicação é completamente absurda. Ele (como muitos fanáticos por tecnologia) não entendeu nada! Não estamos discutindo qual caractere específico a IA usou (se foi `—` ou `--`), mas sim por que ela usou esse sinal de pontuação para sua "função". Ou seja, a função gramatical de "interrupção-suplementação-transição"! Mesmo que os dados de treinamento da IA identifiquem muitos hífens (como em "state-of-the-art") como traços devido a erros de OCR ou conversão automática, Isso só ensinaria o modelo a usar travessões "incorretamente" em lugares como "de última geração", mas não o ensinaria a usar travessões no final das frases para substituir "portanto"! São coisas completamente diferentes. Então, depois de muita reflexão, pessoalmente, continuo a inclinar-me para a teoria dos "livros antigos do século XIX". O mais interessante nisso tudo é que descobrimos que os padrões de comportamento da IA, esse gigante aparentemente "inteligente", muitas vezes têm origens inesperadas, até mesmo um tanto "estúpidas". Um pequeno sinal de pontuação é como um fóssil na "arqueologia digital". Ela guarda o segredo da "evolução" de grandes modelos de IA.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.