일리야는 얼마 전 비지도 학습의 핵심은 "압축"이고, 압축이 곧 학습이라고 말했는데, 이는 매우 통찰력 있는 발언이었습니다. 압축이란 학습입니다: 더 간단하게 설명하자면 폴더가 두 개 있다고 가정해 보겠습니다. ① 폴더 X: 레이블이 지정되지 않은 사진 모음(비지도 학습 데이터) ② 폴더 Y: 고양이와 개를 식별하는 등 실제로 수행해야 하는 작업(태그 데이터 포함)이 들어 있습니다. 이제 압축 소프트웨어를 사용하여 이 두 폴더를 하나로 묶으세요. 놀라운 일이 일어났습니다: 압축 소프트웨어가 충분히 똑똑하다면 X와 Y에서 공통 패턴(예: "흐릿한 가장자리" 또는 "네 개의 다리"와 같은 특징)을 찾아낸 다음, 이러한 공통 패턴을 사용하여 더 작은 크기로 압축할 것입니다. 이것이 바로 비지도 학습이 하는 일입니다. 지도 학습은 매우 명확합니다. 기계에게 "이건 고양이고, 저건 개야"라고 말하면 됩니다. 기계가 학습하여 높은 훈련 정확도와 높은 테스트 정확도를 달성했습니다. - 이를 보장하는 수학적 공식이 있습니다. 하지만 비지도 학습은 특이합니다. - 당신은 기계에게 "다음 픽셀이 무엇일지 예측해 보라"고 요청합니다. - 하지만 당신이 정말로 원하는 건 "고양이와 개를 구별하는 것"이잖아요. 이 두 작업은 완전히 다릅니다! 픽셀 예측이 고양이와 강아지를 식별하는 데 어떻게 도움이 될 수 있을까요? 이전에는 비지도 학습이 "실제로 유용하다"는 것만 알았을 뿐, 왜 유용한지는 설명할 수 없었습니다. 일리야는 비지도 학습을 압축 문제로 생각하면 명확해진다고 말합니다. 압축률이 좋다는 것은 데이터에서 패턴을 찾는다는 의미입니다. - 이미지에 무작위 노이즈가 많으면 압축할 수 없습니다. - 이미지에 패턴이 있다면 (예: 하늘은 모두 파랗고 잔디는 모두 초록색인 경우), 이미지를 압축할 수 있습니다. 그래서: 다음 픽셀 예측 = 픽셀 간 패턴 찾기 = 이미지 압축 패턴을 더 잘 찾을수록 압축률이 높아지고, 학습하는 내용도 더 유용해집니다. 2020년, 일리야 팀은 다음과 같은 실험을 진행했습니다. 1. 이미지를 픽셀 문자열(픽셀 1, 픽셀 2, 픽셀 3 등)로 변환합니다. 2. 예측 모델 학습: 이전 픽셀들을 보고 다음 픽셀이 무엇일지 예측합니다. 3. 모델의 크기가 클수록 예측의 정확도가 높아집니다. 4. 놀라운 일이 일어났습니다. 모델의 예측이 정확할수록 이미지 분류 정확도도 높아졌습니다. 이는 강력한 압축 능력이 강력한 학습 능력과 직결된다는 것을 증명합니다. 오래된 혼란: 내가 너에게 "다음 단어를 예측하는 법"을 가르쳤는데, 너는 어떻게 "에세이를 쓰는 법"을 아는 거지? 이 두 가지는 전혀 다른 거야. 일리야의 설명: 정확한 예측을 하려면 언어의 심층적인 규칙을 이해해야 합니다. 이러한 원칙들은 에세이를 작성할 때도 유용합니다. 요약하자면: 소설을 완성하려면 줄거리, 등장인물, 문법을 이해해야 합니다. 이러한 이해 자체가 "학습"을 구성합니다. 압축률이 높을수록 이해도는 깊어집니다. 이 관점이 왜 그렇게 훌륭할까요? 수학적 보장을 제공하기 때문입니다. 모델이 데이터를 충분히 잘 압축할 수만 있다면, 분명 유용한 것을 학습할 것입니다. 간단한 한 문장으로 표현하면 다음과 같습니다. 데이터를 압축한다는 것은 패턴을 찾는 것과 같습니다. 더 많은 패턴을 찾을수록 더 유용한 정보를 얻게 됩니다. GPT는 다음 단어를 예측하는데, 이는 본질적으로 텍스트를 압축하는 방식으로 언어를 학습할 수 있게 해줍니다. https://t.co/digeAJm2D7
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.