Por el momento se desconoce el motivo por el cual ChatGPT prefiere usar guiones, pero acabo de ver una entrada de blog que analiza este tema y que resultó bastante interesante. Un punto interesante es que a la IA le gusta especialmente usar la palabra "delve" (explorar en profundidad). La respuesta a este fenómeno es conocida: RLHF (Aprendizaje por Refuerzo con Retroalimentación Humana). En resumen, el paso final en el entrenamiento de un modelo de IA consiste en contratar a un gran número de «mentores» humanos para que evalúen sus respuestas. Muchos de los mentores de OpenAI se encuentran en países africanos como Kenia y Nigeria. En el inglés africano que se habla en estas regiones, «delve» es una palabra muy común y apropiada. Así que cuando la IA usó "delve", los mentores africanos pensaron: "Esa es una buena forma de decirlo" y le dieron una puntuación alta. La IA entonces aprendió: "Ah, al cliente le gusta que use 'delve'". ¿Entonces, el guion también se usa por esta razón? Siguiendo esta línea de pensamiento, el autor investigó si los guiones también se utilizan con frecuencia en el inglés africano. ¡Pero no fue así! La frecuencia de guiones en el inglés nigeriano (0,022% por palabra) es mucho menor que el nivel promedio en el inglés general (0,25% a 0,275%). Esto indica que los dos "acordeones" de IA, "delve" y "dash" (—), tienen orígenes diferentes. El autor finalmente descubrió una pista decisiva: el tiempo. Si recuerdan, GPT-3.5, a finales de 2022, no presentaba este problema. Esta "adicción al guion" solo se manifestó realmente en GPT-4 y GPT-4o. No se trata solo de OpenAI; modelos de Google y Anthropic, incluidos algunos grandes modelos chinos, han comenzado a utilizar guiones. ¿Qué cambios comunes se produjeron en los datos de entrenamiento de todos los laboratorios de IA entre 2022 y 2024? La respuesta es: las empresas de IA se enfrentan a una "escasez de datos" y están "alimentando" frenéticamente a su IA con libros, especialmente "libros antiguos". En 2022, la IA se basaba principalmente en datos disponibles públicamente en internet y en libros electrónicos pirateados (como los de LibGen). Sin embargo, estos datos pronto resultaron insuficientes y su calidad se volvió inconsistente. Para hacer que los modelos sean más "cultos" y de "mayor calidad", las empresas de IA (los documentos judiciales muestran que Anthropic comenzó este trabajo en febrero de 2024, y OpenAI lo hizo incluso antes) lanzaron un proyecto masivo: escanear libros físicos a gran escala, digitalizarlos y utilizarlos como datos de entrenamiento. Muy bien, aquí está la última pieza del rompecabezas para resolver el caso. Dado que la IA ha consumido una gran cantidad (posiblemente millones) de libros en papel escaneados, ¿de qué época son estos libros? Los libros que se encuentran en sitios web de libros electrónicos pirateados son, en su mayoría, obras populares contemporáneas. Sin embargo, para maximizar sus ingresos y eludir los derechos de autor, las empresas de inteligencia artificial analizan una gran cantidad de libros que son obras antiguas que ya son de dominio público. El autor encontró un estudio sobre la frecuencia de uso de la puntuación en inglés, que demostró: La frecuencia de uso del guion en la literatura inglesa alcanzó su punto máximo alrededor de 1860 (aproximadamente 0,35%), y su uso a finales del siglo XIX y principios del XX fue mucho mayor que en el inglés contemporáneo. El autor da un ejemplo: en el famoso libro Moby-Dick (publicado en 1851), ¡el guion aparece 1728 veces! La verdad ha salido a la luz: La IA más avanzada que utilizamos hoy en día no aprende su "puntuación" del internet de 2020, sino de antiguas novelas de 1890. Para obtener corpus de "alta calidad", las empresas de IA alimentaron sus modelos con una gran cantidad de obras literarias de finales del siglo XIX y principios del XX. La IA aprendió fielmente el estilo de escritura de esa época, incluyendo su ferviente afición por los guiones. Por supuesto, el autor también reconoce que esto sigue siendo una especulación basada en evidencia, y que algunas cuestiones menores permanecen sin resolver: 1. ¿Por qué la IA solo aprendió a usar guiones pero no a hablar como el capitán de Moby-Dick? ¿Acaso el modelo solo absorbió el estilo "subconsciente" de los signos de puntuación, sin absorber vocabulario específico? 2. ¿Existe una explicación más sencilla? Por ejemplo, Sam Altman mencionó una vez casualmente que descubrieron que los tutores humanos de RLHF "parecían preferir" las respuestas con guiones, considerándolas más "coloquiales", por lo que "añadieron más". Sin embargo, en definitiva, la teoría del "escaneo de libros antiguos" es actualmente la más convincente. Explica perfectamente por qué GPT-3.5 no lo hizo, mientras que los modelos posteriores a GPT-4 (que se entrenaron con una gran cantidad de datos de libros nuevos) se volvieron colectivamente "adictos" a los guiones. Si te interesa, puedes consultar el artículo original: https://t.co/BxRnoWxsnS
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.