Ilya a partagé il y a quelque temps que l'essence de l'apprentissage non supervisé est la « compression », et que la compression est un apprentissage, ce qui était très perspicace. La compression, c'est apprendre : une explication plus simple Supposons que vous ayez deux dossiers : ① Dossier X : Un ensemble de photos non étiquetées (données non supervisées) ② Dossier Y : La tâche que vous devez réellement accomplir, comme l'identification des chats et des chiens (avec des données étiquetées). Utilisez maintenant un logiciel de compression pour regrouper ces deux dossiers. Il s'est passé quelque chose d'incroyable : Si le logiciel de compression est suffisamment intelligent, il trouvera des motifs communs dans X et Y (tels que des caractéristiques comme des « bords flous » ou des « quatre pattes »), puis utilisera ces motifs communs pour les compresser à une taille plus petite. C’est précisément le principe de l’apprentissage non supervisé. L'apprentissage supervisé est très clair : Vous dites à la machine : « Ceci est un chat, cela est un chien. » La machine a appris, ce qui se traduit par une grande précision d'entraînement et une grande précision de test. - Il existe une formule mathématique pour le garantir. Mais l'apprentissage non supervisé est étrange : - Vous demandez à la machine de prédire « quel sera le pixel suivant ». - Mais ce que vous voulez vraiment, c'est « identifier les chats et les chiens ». Ces deux tâches sont complètement différentes ! Comment la prédiction des pixels peut-elle vous aider à identifier les chats et les chiens ? Auparavant, nous savions seulement que l'apprentissage non supervisé « est effectivement utile », mais nous ne pouvions pas expliquer pourquoi il l'était nécessairement. Ilya affirme que cela devient clair si l'on considère l'apprentissage non supervisé comme un problème de compression. Une bonne compression = trouver des modèles dans les données - Si une image est pleine de bruit aléatoire, vous ne pouvez pas la compresser. - Si l'image présente un motif (par exemple, un ciel entièrement bleu et une herbe entièrement verte), vous pouvez la compresser. donc: Prédire le pixel suivant = Trouver des motifs entre les pixels = Compresser l'image Plus le modèle que vous trouvez est pertinent, plus la compression est intense, plus les enseignements que vous en tirerez seront utiles. En 2020, l'équipe d'Ilya a mené une expérience : 1. Convertissez l'image en une chaîne de pixels : pixel 1, pixel 2, pixel 3… 2. Entraînement du modèle de prédiction : en observant les pixels précédents, devinez quel sera le pixel suivant. 3. Plus le modèle est grand, plus la prédiction est précise. 4. Un phénomène surprenant s'est produit : plus les prédictions du modèle étaient précises, plus il était précis pour la classification d'images. Cela prouve qu'une forte capacité de compression équivaut à une forte capacité d'apprentissage. Vieille confusion : Je vous ai appris à « prédire le mot suivant », alors comment se fait-il que vous sachiez « écrire une dissertation » ? Ce n'est pas la même chose. Explication d'Ilya : Pour faire des prédictions précises, il faut comprendre les règles plus profondes du langage. Ces principes sont également utiles pour la rédaction de dissertations. En bref: Pour écrire un roman, il faut comprendre l'intrigue, les personnages et la grammaire. Ces compréhensions constituent en elles-mêmes un « apprentissage ». Plus la compression est efficace, plus la compréhension est profonde. Pourquoi cette perspective est-elle si intéressante ? Parce qu'elle offre une garantie mathématique : Pourvu que votre modèle parvienne à compresser suffisamment les données, il apprendra assurément quelque chose d'utile. Une version simplifiée en une seule phrase : La compression des données équivaut à la recherche de tendances ; plus vous trouvez de tendances, plus vos apprentissages seront utiles. GPT prédit le mot suivant, ce qui revient essentiellement à compresser le texte, afin qu'il puisse apprendre le langage. https://t.co/digeAJm2D7
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.