La demanda antimonopolio contra Microsoft fue uno de los varios puntos álgidos del estallido de la burbuja puntocom. Una demanda histórica por derechos de autor contra OpenAI/Microsoft/Google será un presagio de lo que está por venir. Esto está en juego: si a alguno de estos actores se le prohíbe seguir entrenando modelos con obras protegidas por derechos de autor, se sentará un precedente que provocará el colapso total de la economía de los datos de entrenamiento para toda la industria que entrena modelos de aprendizaje automático (LLM), modelos de aprendizaje virtual (VLM), modelos de vídeo, modelos de imagen... la lista continúa. En la próxima ola necesitaremos una generación de IA capaz de razonar de forma genuina y crear nueva información a partir de la información distribuida, en lugar de ser un motor de búsqueda recombinante. Es cierto que los datos de entrenamiento siempre serán necesarios, pero necesitamos poder aprovechar la capacidad de cómputo con un sustrato de datos más pequeño y obtener rendimientos desproporcionados en relación con la entrada. Necesitas poder obtener los derechos de una novela y que la IA sea capaz de escribir 10, en lugar de tener que comprar los derechos de 1 millón de novelas solo para que escriba una (y serían palabras recombinantes de 1 millón de novelas en lugar de ser una novela nueva fuera de distribución). El preentrenamiento con datos libres de derechos probablemente seguirá teniendo un papel importante, pero sin duda cambia el paradigma del preentrenamiento a gran escala en la formación de modelos. Será necesario centrarse más en los algoritmos.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.