Ilya compartió hace algún tiempo que la esencia del aprendizaje no supervisado es la "compresión", y la compresión es aprendizaje, lo cual fue muy esclarecedor. La compresión es aprendizaje: una explicación más sencilla Supongamos que tienes dos carpetas: ① Carpeta X: Un montón de fotos sin etiquetar (datos no supervisados) ② Carpeta Y: La tarea real que necesita realizar, como identificar gatos y perros (con datos etiquetados). Ahora use un software de compresión para empaquetar estas dos carpetas juntas. Pasó algo asombroso: Si el software de compresión es lo suficientemente inteligente, encontrará patrones comunes en X e Y (como características como "bordes difusos" o "cuatro patas") y luego usará estos patrones comunes para comprimirlos a un tamaño más pequeño. Esto es exactamente lo que hace el aprendizaje no supervisado. El aprendizaje supervisado es muy claro: Le dices a la máquina: "Esto es un gato, eso es un perro". La máquina ha aprendido, lo que da como resultado una alta precisión de entrenamiento y una alta precisión de prueba. -Hay una fórmula matemática para garantizar esto. Pero el aprendizaje no supervisado es extraño: - Le pides a la máquina que prediga "cuál será el próximo píxel". - Pero lo que realmente quieres es "identificar gatos y perros". ¡Estas dos tareas son completamente diferentes! ¿Cómo puede la predicción de píxeles ayudarte a identificar perros y gatos? Antes, sólo sabíamos que el aprendizaje no supervisado "es realmente útil", pero no podíamos explicar por qué era necesariamente útil. Ilya dice que esto queda claro si pensamos en el aprendizaje no supervisado como un problema de compresión. Buena compresión = encontrar patrones en los datos - Si una imagen está llena de ruido aleatorio, no podrás comprimirla. - Si hay un patrón en la imagen (como si el cielo fuera todo azul y el césped fuera todo verde), puedes comprimirlo. entonces: Predecir el próximo píxel = Encontrar patrones entre píxeles = Comprimir la imagen Cuanto mejor sea el patrón que encuentres, más intensiva sea la compresión y más útil será lo que aprendas. En 2020, el equipo de Ilya realizó un experimento: 1. Convierte la imagen en una cadena de píxeles: píxel 1, píxel 2, píxel 3... 2. Entrenar el modelo para la predicción: viendo los píxeles anteriores, adivina cuál será el siguiente. 3. Cuanto mayor sea el modelo, más precisa será la predicción. 4. Ocurrió algo sorprendente: cuanto más precisas eran las predicciones del modelo, más preciso era para la clasificación de imágenes. Esto demuestra que una fuerte capacidad de compresión equivale a una fuerte capacidad de aprendizaje. Vieja confusión: Te enseñé a predecir la siguiente palabra, así que ¿cómo es que sabes escribir un ensayo? No es lo mismo. La explicación de Ilya: Para hacer predicciones precisas, debes comprender las reglas más profundas del lenguaje. Estos principios también son útiles para escribir ensayos. En breve: Para compilar una novela, es necesario comprender la trama, los personajes y la gramática. Estos conocimientos en sí mismos constituyen el "aprendizaje". Cuanto mejor sea la compresión, más profunda será la comprensión. ¿Por qué es tan grandiosa esta perspectiva? Porque proporciona una garantía matemática: Siempre que su modelo pueda comprimir los datos lo suficientemente bien, definitivamente aprenderá algo útil. Una versión sencilla de una sola frase: Comprimir datos equivale a encontrar patrones; cuantos más patrones encuentres, más útil será lo que aprendas. GPT predice la siguiente palabra, lo que esencialmente comprime el texto para poder aprender el idioma. https://t.co/digeAJm2D7
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.