Esto es tan interesante que no pude resistirme a pedirle a la IA que reescribiera un artículo. ¡El misterio está resuelto! La verdad tras el uso obsesivo de guiones por parte de la IA es en realidad... Los artículos escritos por IA siempre tienen un "sabor a IA". Una de las características más obvias, especialmente en la escritura en inglés, es el uso frecuente de guiones. Honestamente, el abuso de guiones por parte de los modelos de IA (especialmente las versiones posteriores a GPT-4) ha alcanzado un nivel escandaloso. Lo más gracioso es que apenas se puede "corregir" mediante una indicación. Un internauta publicó en el foro de OpenAI que probó varios métodos, como "Por favor, no use guiones" y "Por favor, use una puntuación más concisa", pero el modelo decía "De acuerdo, lo entiendo" y luego volvía a usar la puntuación como antes. Hay algo extraño en todo esto. Lógicamente hablando, la IA es un "repetidor", y todos sus comportamientos deberían provenir de sus datos de entrenamiento. Pero ¿por qué es precisamente el guion —que no es el signo de puntuación más utilizado en el inglés moderno— el que se ha convertido en el "favorito" de la IA? Curiosamente, actualmente **no existe una respuesta definitiva y universalmente aceptada** a esta pregunta dentro de la industria. Hoy, juguemos a ser detectives y, junto con un interesante análisis (de Sean Goedecke), descubramos los orígenes de las "peculiaridades de escritura" de la IA. Varias conjeturas "poco fiables" Antes de revelar la respuesta más probable, debemos "desbrozar" y eliminar varias teorías ampliamente difundidas que, tras un examen más detenido, resultan insostenibles. Especulación 1: ¿Ya había muchos datos en los datos de entrenamiento? Esta es la suposición más intuitiva: ¿le gusta a la IA usarlo porque el material del que "aprende" —es decir, el texto en inglés de todo Internet— usa muchos guiones? Al principio no me creí del todo esa explicación. Piénsalo, si los guiones fueran tan comunes en la escritura humana, no serían un "defecto" tan evidente, ¿verdad? La razón por la que sentimos que la "IA" es fuerte es precisamente porque percibimos intuitivamente que la IA utiliza guiones con mucha más frecuencia que el ser humano promedio. Si la IA usa comas con mucha frecuencia, ¿te importaría? No, porque todos las usamos así también. Por lo tanto, esta explicación evita directamente la pregunta fundamental: ¿Por qué la IA lo "preferiría"? Especulación 2: ¿Es el guión una función "todoterreno", mientras que la IA es "perezosa"? Existe otra teoría, que suena un poco "antropomórfica". La cuestión es que cuando la IA tiene dificultades para predecir la siguiente palabra (Token), realmente está teniendo muchas "dificultades". Usar un guion es como dejarte una "puerta trasera". Piénsalo, un guion: puede introducir explicaciones complementarias, abrir una perspectiva completamente nueva o incluso indicar un punto de inflexión. Entonces, ¿la IA "calculó" y pensó que añadir un guion era la forma "más segura" y "más versátil" de que la siguiente frase funcionara de alguna manera? Yo tampoco me lo creo. En primer lugar, otros signos de puntuación (como las comas y los puntos y comas) también son flexibles en muchos contextos. En segundo lugar, siempre me parece un tanto... presuntuoso aplicar procesos de pensamiento humanos como la "pereza" o la "dejar una salida" a los principios de funcionamiento de los grandes modelos de lenguaje. El modelo simplemente "predice el siguiente token más probable"; no tiene la intención subjetiva de "jugar con trucos". Especulación 3: ¿Para "ahorrar dinero" (para mejorar la eficiencia de los tokens)? Este argumento es un poco más técnico, pero también es el más fácil de refutar. Se planteó un concepto denominado eficiencia de tokens. En pocas palabras: los modelos de lenguaje grandes no procesan el texto palabra por palabra, sino que dividen las palabras en "tokens". Por ejemplo, "increíble" podría dividirse en tres elementos: "in", "creer" y "capaz". El coste computacional de la IA está directamente relacionado con el número de tokens que procesa. La teoría es que la IA ha descubierto que un solo guion (que vale 1 token) puede reemplazar un montón de conjunciones verbosas (como frases como "por lo tanto", o "lo que significa", que podrían costar 2-3 tokens). ¡Usar guiones puede "ahorrar dinero"! Mmm... esta explicación todavía no encaja del todo. En primer lugar, en la mayoría de los casos, el guion puede sustituirse perfectamente por una coma (que además ocupa solo 1 token). Por ejemplo, la IA suele escribir: "No es X, es Y". Esto podría escribirse fácilmente como: "No es X, es Y". Nadie ahorra más fichas que nadie. En segundo lugar, ¿de verdad crees que un gigante como GPT-4o se dedicaría a semejante "microgestión" de los signos de puntuación para optimizar costes? Si de verdad quería ahorrar tokens, ¿no habría sido mejor dejar de repetir las mismas frases de siempre sobre "menos palabrería"? Eso habría ahorrado muchos tokens. Por lo tanto, las tres hipótesis "convencionales" mencionadas anteriormente han sido prácticamente descartadas. ¿Quién es, entonces, el verdadero culpable? Profundicemos: ¿Podría ser culpa de RLHF? Llegados a este punto, debemos hablar de algo más profundo, un término muy conocido en la comunidad de IA: RLHF. Su nombre completo es Aprendizaje por Refuerzo con Retroalimentación Humana. ¿Qué es esto? A grandes rasgos, se puede considerar como las etapas de "formación previa al trabajo" y "evaluación del desempeño" de la IA. Una vez que el modelo (como GPT-4) está básicamente entrenado, las empresas de IA contratarán a cientos o miles de "evaluadores" humanos para que interactúen con la IA y califiquen sus respuestas. ¡Esta respuesta es demasiado larga, pulgar abajo! "Esta respuesta fue muy útil y resolvió mi problema. ¡Excelente!" El modelo «reflexionará» y «corregirá» continuamente su forma de hablar basándose en estas «críticas positivas» y «críticas negativas» humanas para hacerse más «útil» y más «agradable». Bien, aquí está la pregunta. Para ahorrar costes, las empresas de IA sin duda subcontratarán este trabajo de "puntuación". ¿Pero a quién? La respuesta es: países con un coste de vida más bajo pero con grandes poblaciones de habla inglesa. Por ejemplo, el principal equipo RLHF de OpenAI se encuentra en Kenia y Nigeria, en África. Esto conlleva una consecuencia muy interesante: El "gusto" de la IA está en gran medida condicionado por los "dialectos ingleses" de estos anotadores africanos. Uno de los ejemplos más famosos es la palabra "delve" (profundizar en el estudio). ¿Lo has notado? GPT-4 tiene una particular predilección por usar palabras sofisticadas que suenan un poco "intelectuales", como "delve", "explore" y "tapestry" (que puede interpretarse como "blueprint" o "scroll"). Esto se debe a que, en el inglés africano (como variante del inglés de los países postcoloniales), el uso de un vocabulario ligeramente ornamentado se consideraba un signo de "cultura" y "competencia lingüística". Cuando los anotadores kenianos vieron que el modelo usaba la palabra "profundizar", se alegraron muchísimo: "¡Guau, qué buena palabra, muy auténtica! ¡Excelente calificación!" Como resultado, el modelo lo entendió: ¡Oh, a los humanos les gusta que use "delve", así que lo usaré más a menudo en el futuro! (Este tema también desató un importante debate. Paul Graham criticó en su momento el término, pero muchos académicos indios y nigerianos le aclararon que no comprendía las diferencias culturales). ¿El guion también supone un problema con el "inglés africano"? La pregunta es: ¿Podría ocurrir lo mismo con los guiones? ¿Será porque en el inglés nigeriano se tiende a usar mucho el guion en el habla cotidiana que los anotadores también prefieren las respuestas con guiones? Esta suposición es absolutamente perfecta, ¿verdad? Explica por qué "delve" y "dash" aparecen juntos. Sin embargo, el autor original, Sean Goedecke, es una persona meticulosa, y de hecho fue a comprobar los datos. Encontró un conjunto de datos de "texto en inglés nigeriano" y luego ejecutó un programa para contar la frecuencia de guiones en él. ¿Y adivina qué pasó? Los datos son una bofetada. Los datos muestran que en ese conjunto de datos de inglés nigeriano, la frecuencia del guion (como porcentaje del total de palabras) es aproximadamente del 0,022%. Un artículo sobre la historia de la puntuación inglesa señala que la frecuencia de guiones en los textos ingleses contemporáneos fluctúa entre el 0,25% y el 0,275%. ¿Lo entiendes ahora? El inglés nigeriano (como representante del inglés africano) utiliza guiones con mucha menos frecuencia que el inglés general. Por lo tanto, esta pista también se ha enfriado. Puede que la RLHF y las empresas de etiquetado africanas tengan que asumir la responsabilidad del error de "delve"; pero la responsabilidad del error de "dash" realmente no recae sobre ellas. El verdadero "sospechoso": un libro antiguo del siglo XIX Bien, después de descartar tantas posibilidades, déjenme decirles que la siguiente explicación es la más fiable y convincente que he visto hasta ahora. Proviene de una observación crucial: ¿Notaste algo interesante? ¡GPT-3.5 casi nunca usa guiones! Esta "peculiaridad" solo comenzó a aparecer en grandes cantidades con GPT-4 (y GPT-4o). Claude de Anthropic y Gemini de Google también tienen este problema. Esto reduce el plazo a poco más de un año, desde finales de 2022 (lanzamiento de GPT-3.5) hasta principios de 2024 (lanzamiento de GPT-4o). ¿Qué ocurrió exactamente entre 2022 y 2024? Solo hay una respuesta: La composición de los datos de entrenamiento ha sufrido un cambio fundamental. Piénsalo, allá por 2022, cuando OpenAI entrenó sus modelos, los datos que utilizaron provenían principalmente de texto disponible públicamente extraído de Internet (como Wikipedia, publicaciones de Reddit y sitios web de noticias), además de una enorme cantidad de libros electrónicos pirateados "obtenidos" de sitios web como LibGen y Z-Library. Sin embargo, cuando las capacidades de los grandes modelos conmocionaron al mundo en 2023, todas las empresas de IA se volvieron locas. Inmediatamente se dieron cuenta de que los datos de entrenamiento de alta calidad eran el "petróleo" y el "oro" del futuro. La "basura" que circula por internet ya no satisface a la nueva generación de modelos. Necesitan textos más abundantes, de mayor calidad y más limpios. ¿Dónde pusieron la mira? Libro físico. Las empresas de IA (OpenAI, Anthropic, Google, etc.) han lanzado una frenética "carrera armamentística de datos", sin escatimar gastos para escanear y digitalizar masivamente todas las publicaciones en papel de la historia de la humanidad. (Los documentos judiciales de Anthropic revelaron que comenzaron a trabajar en esto en febrero de 2024. Aunque OpenAI no lo dijo explícitamente, se cree ampliamente en la industria que comenzaron antes y de manera más agresiva). Bien, aquí llega el punto de conexión crucial. ¿Cuáles son las principales diferencias entre estos libros físicos recién escaneados y los libros pirateados que circulaban anteriormente en LibGen? La diferencia reside en la época. El contenido de los sitios web de libros electrónicos pirateados se inclina mayoritariamente hacia la literatura contemporánea y los materiales de lectura populares (como Harry Potter, varias novelas superventas y libros de texto modernos), porque esto es lo que los internautas realmente quieren descargar y leer. Cuando las empresas de IA intenten "rescatar" datos, sin duda examinarán minuciosamente todos los libros que puedan encontrar sobre la historia de la humanidad, especialmente aquellos libros antiguos que llevan mucho tiempo siendo de "dominio público". ¿De qué época son la mayoría de estos libros? Finales del siglo XIX y principios del siglo XX. Ahora, volvamos al "trabajo de investigación histórica sobre los signos de puntuación" mencionado anteriormente. Contiene un descubrimiento asombroso: El uso de guiones en la escritura inglesa alcanzó su punto máximo histórico alrededor de 1860 (aproximadamente 0,35%). Luego disminuyó gradualmente, estabilizándose en un nivel de 0,25%-0,275% después de la década de 1950. Echemos otro vistazo: las obras literarias de finales del siglo XIX y principios del XX (como las de Dickens y Melville) utilizaban guiones casi un 30% más a menudo que el inglés contemporáneo. Por ejemplo, el famoso libro "Moby-Dick" contiene la asombrosa cantidad de 1.728 guiones. La verdad ha salido a la luz, ¿no? Esta es probablemente la explicación más razonable: La razón por la que los modelos de IA utilizan guiones de forma tan extensa no se debe a que hayan elegido "inteligentemente" algún signo de puntuación universal, ni a la preferencia de los puntuadores africanos. Sencillamente porque, en la "carrera armamentística de datos" de 2023, fue "alimentada" (preentrenada) a la fuerza con una cantidad masiva de libros antiguos de "alta calidad" de los siglos XIX y principios del XX. ¡Y esos libros... no son más que guiones! Este "hábito de escritura", como un antiguo "ADN gramatical", está profundamente arraigado en la red neuronal del modelo. En resumen, y algunos pequeños problemas que aún no he resuelto del todo. Bien, repasemos los pasos de este proceso de "resolución de casos": 1. Explicación estructural (ahorro de tokens, de propósito general): Improbable. GPT-3.5 no tiene este problema y existen contraejemplos (coma). 2. Interpretación RLHF (preferencia del anotador): Improbable. Los datos del inglés africano refutan la teoría del dialecto. 3. Interpretación de datos de entrenamiento (contaminación de libros antiguos): muy probable. Esto explica perfectamente por qué la explosión comenzó con GPT-4 (debido a que cambió la composición de los datos), y también explica por qué el uso de la IA es superior al nivel promedio de los humanos contemporáneos (debido a que sus "libros de texto" son más antiguos que los nuestros). Personalmente (al igual que el autor original), me inclino más por la tercera posibilidad: contaminación de los datos de entrenamiento (especialmente de libros más antiguos). Pero este asunto aún no ha terminado. Incluso si esta "teoría del libro antiguo" es cierta, todavía hay algunos "pequeños detalles" que sigo sin comprender. Problema 1: La paradoja de Moby-Dick Esta es la mayor fuente de confusión: Si la IA realmente ha "leído" los clásicos del siglo XIX, ¿por qué su escritura no se parece a Moby-Dick o Historia de dos ciudades? Simplemente "robó" los signos de puntuación de otros, pero no logró aprender su estilo de escritura ornamentado, complejo y antiguo. Tengo mi propia teoría al respecto. Este podría ser un resultado tipo "monstruo de Frankenstein" causado por el "entrenamiento por capas" que mencioné anteriormente. Puedes imaginarlo así: 1. Fase de preentrenamiento: La IA es como un bebé, encerrado en una habitación oscura, «tragándose» a la fuerza billones de tokens, incluyendo Moby-Dick. En esta fase, aprende gramática, vocabulario, datos y, incidentalmente, la «guion», una expresión muy arraigada. En este punto, su «alma» es del siglo XIX. 2. Fase de "ajuste fino" (SFT y RLHF): La IA ha madurado y se lanza para el "entrenamiento previo al trabajo". Miles de editores lingüísticos del siglo XXI (incluidos kenianos) comenzaron a "remodelar" sus patrones de habla, obligándolo a hablar en un "estilo contemporáneo" propio del siglo XXI, cortés, amigable y centrado en el cliente (como "Estoy encantado de ayudarle" o "Como modelo lingüístico a gran escala..."). Así pues, lo que acabas viendo es una IA con una "personalidad dividida": Posee un "alma gramatical del siglo XIX" (de ahí su afición por los guiones), pero se ve obligada a adoptar un "manto de atención al cliente del siglo XXI" (de ahí su habla como la de un asistente de IA). ¿Acaso esto no es cyberpunk? Segundo problema: ¿Es RLHF realmente "inocente"? Otra posibilidad es que RLHF tampoco sea del todo "inocente". Aunque la teoría del "dialecto africano" ha sido refutada, ¿es posible que el propio guion haga que el texto se lea de forma más "coloquial"? Piénsalo, cuando charlamos, ¿acaso no solemos decir cosas como "eh...", "eso..." o "quiero decir..."? En términos de función, el panel de control puede simular efectivamente esta "pausa" y "complemento". Quizás los anotadores (dondequiera que estén) simplemente pensaron: "¡Guau, esta respuesta usa guiones, lo que la hace menos rígida y más como una 'charla', me gusta! ¡Puntuación alta!" El CEO de OpenAI, Sam Altman, también mencionó vagamente en una entrevista que "(intencionalmente) añadieron más guiones porque a los usuarios les gusta este estilo". Si es así, entonces podría funcionar conjuntamente con la "teoría del libro antiguo": El libro antiguo (preentrenamiento) le dio a la IA la "capacidad" y la "alta probabilidad" de usar guiones; mientras que el etiquetador (RLHF) "reforzó" y "recompensaron" esta capacidad, haciéndola aún más pronunciada. Epílogo: Un "interludio" en Hacker News Tras la publicación del artículo por el autor original, este se viralizó en Hacker News (el equivalente para programadores de Douban). En la sección de comentarios ha surgido otra teoría interesante, del CEO de Medium (una plataforma de blogs). El director ejecutivo dijo: ¡Deja de adivinar, te diré por qué! Porque Medium es una fuente de datos de entrenamiento de alta calidad. Y en Medium, nuestro sistema convierte automáticamente los dos guiones (`--`) introducidos por el usuario en un guion estándar (`—`). ¡Esa debe ser la razón! Francamente, esta explicación es totalmente absurda. Él (como muchos fanáticos de la tecnología) ¡no entendió nada! No estamos discutiendo qué carácter específico utilizó la IA (si fue `—` o `--`), sino más bien por qué utilizó ese signo de puntuación para su "función". Es decir, ¡la función gramatical de "interrupción-suplementación-transición"! Aunque los datos de entrenamiento de la IA identifiquen muchos guiones (como "de última generación") como rayas debido a errores de OCR o conversión automática, Eso solo le enseñaría al modelo a usar "incorrectamente" los guiones en lugares como "de última generación", ¡pero no le enseñaría a usar guiones al final de las oraciones para reemplazar "por lo tanto"! Son cosas completamente diferentes. Así que, después de dar muchas vueltas, personalmente sigo inclinándome por la teoría de los "libros antiguos del siglo XIX". Lo más interesante de todo esto es que hemos descubierto que los patrones de comportamiento de la IA, este gigante aparentemente "inteligente", a menudo provienen de razones inesperadas, incluso un tanto "estúpidas". Un pequeño signo de puntuación es como un fósil en la "arqueología digital". Encierra el secreto de la "evolución" de los grandes modelos de IA.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.