X (Twitter)

왕관이 언급한 내용을 바탕으로, 오픈AI의 한 연구원이 스탠포드에서 AI가 이해하기 쉬운 기사를 작성하도록 하는 것에 대해 발표한 적이 있습니다. GPT 훈련은 정확히 무엇을 하는 것인가요? 대부분의 사람들은 "언어 규칙을 배우라"거나 "다음 단어를 예측하라"고 말할 것입니다. 이 모든 말들은 옳지만, 충분히 심오하지는 않다. OpenAI의 잭 래는 스탠포드에서 새로운 관점을 제시했습니다. 대규모 언어 모델을 훈련하는 것은 본질적으로 무손실 압축을 수행하는 것과 같다는 것입니다. 그건 직관에 반하는 거 아닌가요? 매개변수가 175개인 모델을 어떻게 "압축"할 수 있을까요? 하지만 이러한 관점을 이해한다면, 그동안 혼란스러웠던 많은 부분들이 갑자기 명확해질 것입니다. 먼저 철학적인 이야기를 좀 해볼까요? 기원전 4세기 초, 아리스토텔레스는 "가정이 적을수록 논증이 더 훌륭한 경우가 많다"라고 말했다. "단순함이 아름다움이다"라는 이 생각은 14세기에 오컴에 의해 유명한 "오컴의 면도날" 원칙으로 요약되었습니다. 즉, 가장 간단한 설명이 종종 옳은 설명이라는 것입니다. 하지만 이러한 철학적 추측들은 1964년 레이 솔로모노프에 의해 증명 가능한 수학적 정리로 바뀌었습니다. 데이터셋이 특정 알고리즘에 의해 생성된 경우, 해당 데이터셋을 예측하는 가장 좋은 방법은 데이터셋의 압축 파일 중 실행 가능한 가장 작은 파일을 찾는 것입니다. 이 정리는 상당히 독창적입니다. 데이터를 더 잘 압축할수록 데이터의 본질을 더 잘 이해할 수 있다는 것입니다. 고전적인 사고 실험인 "중국어 방"을 떠올려 보세요. 한 사람이 모든 가능한 영어 문장과 그에 해당하는 중국어 번역이 담긴 거대한 규칙서를 들고 있었다. 이 사람은 번역을 정말로 "이해"하는 걸까요? 압축률 측면에서 보면 답은 명확합니다. 이 설명서는 너무 방대하고, 내용을 이해하기에는 최악의 방식입니다. 새로운 단어나 표현이 나타나면 시스템은 즉시 오류를 일으킵니다. 시스템이 단순히 표만 참조할 뿐 언어 규칙을 제대로 이해하지 못했기 때문입니다. 하지만 이 설명서를 간결한 문법 규칙과 핵심 어휘로 요약할 수 있다면 이야기는 달라집니다. 압축률이 높을수록 추출되는 패턴이 더욱 근본적이고 일반화 능력이 강해집니다. 대규모 언어 모델은 최고의 압축 도구입니다. 먼저 놀라운 수치 몇 가지를 살펴보겠습니다. Meta의 Llama 모델 버전 65B는 1조 4천억 개의 토큰을 사용하여 한 에포크 동안 학습되었습니다. 원래 데이터 크기는 5.6TB였지만, 이 모델을 사용하여 "압축"하면 최종적으로 약 400GB의 공간만 필요합니다. 압축비 14배. 이에 비해 현재까지 가장 뛰어난 기존 텍스트 압축 알고리즘(휘터 상 수상작)은 8.7배의 압축률을 달성합니다. 대규모 언어 모델은 이미 가장 발전된 무손실 텍스트 압축기입니다. 이렇게 질문하실 수도 있습니다. "잠깐, 65B 모델 자체 용량이 260GB 아닌가요? 압축 후 용량이 400GB밖에 안 된다는 게 어떻게 가능하죠?" 이 부분이 가장 흥미진진한 부분입니다. 모델 가중치를 전송할 필요는 없습니다. 핵심은 "압축"의 진정한 의미를 이해하는 것입니다. 만약 위키피디아의 전체 내용을 친구에게 보내고 싶은데, 인터넷 속도가 매우 느리다고 가정해 봅시다. 기존 방식은 gzip 압축을 사용하는 것이지만, 더 효율적인 방법이 있습니다. 당신은 친구에게 두 가지를 보냈습니다. 1. 트랜스포머 학습용 코드 일부 (용량 1MB) 2. 이 모델을 사용하여 압축한 데이터 시퀀스(400GB) 제 친구는 코드를 받은 후, 그 코드를 사용하여 처음부터 동일한 모델을 학습시켰습니다. 예측된 각 토큰에 대해 압축된 데이터가 "디코딩"되어 실제 토큰이 드러나고, 그 후 학습이 계속되어 다음 토큰을 예측합니다. 이 과정을 반복하면 원래의 5.6TB 데이터를 완전히 복원할 수 있습니다. 보세요? 모델 가중치는 전송할 필요가 전혀 없어요. 10개 레이어로 구성된 트랜스포머를 학습시키든 1000개 레이어로 구성된 트랜스포머를 학습시키든, 초기화 코드의 복잡성은 거의 동일합니다. 실제로 공간을 많이 차지하는 데이터는 "압축 데이터"이며, 그 크기는 모델 예측의 정확도에 따라 달라집니다. 이것이 바로 더 큰 모델이 실제로 더 잘 압축되는 이유입니다. "단순함"의 의미를 재정의해 봅시다. 전통적인 머신러닝 이론에 따르면 "더 작은 모델일수록 일반화 성능이 더 좋다"고 하는데, 이는 "더 단순하기 때문"입니다. 하지만 여기서 "간단하다"는 것은 매개변수가 더 적다는 것을 의미합니다. 압축 관점에서 보면 진정한 단순성은 매개변수의 수를 줄이는 것이 아니라 데이터를 더 간결하게 설명하는 데 있다는 것을 알 수 있습니다. Llama 33B와 65B는 "코드 복잡도"가 동일하지만(둘 다 1MB의 학습 코드를 사용함), 65B는 데이터를 더 작게 압축합니다. 근본적으로 65B는 "더 단순한" 모델이면서 동시에 더 스마트한 모델입니다. 이것이 바로 대규모 모델이 과적합되지 않는 이유이며, 스케일링 법칙이 효과적인 이유입니다. 모델이 데이터를 더 잘 압축할수록 더 기본적인 규칙을 학습하고 일반화 능력이 향상될 것입니다. 압축된 관점은 또한 우리에게 특별한 선물을 줍니다. 바로 게임에 구애받지 않는 유일한 훈련 목표라는 점입니다. 테스트 세트 오염은 대규모 모델 평가에서 주요 문제점입니다. 하지만 압축률로 측정할 경우에는 이러한 문제가 발생하지 않습니다. 테스트 세트 전체를 훈련 세트에 넣어 모델이 완벽하게 암기하도록 했다고 가정해 봅시다. 이러한 방식으로 모델의 예측 정확도는 100%가 되며, 압축된 데이터 부분은 실제로 0이 됩니다. 하지만 그 대가는 무엇일까요? "모델 설명 길이"에 전체 데이터셋을 포함해야 합니다. 전반적인 압축 효과는 오히려 악화되었습니다. 이것이 바로 압축의 우아함입니다. 어떤 부정행위든 수학적으로 드러나게 되어 있죠. 핵심 원리를 진정으로 이해해야만 더 나은 압축률을 달성할 수 있습니다. 이러한 관점에서 보면, 인공 일반 지능으로 가는 길이 명확해집니다. 유용한 지각 정보를 모두 수집한 다음, 최대한 압축하십시오. 압축비를 향상시킬 수 있는 방법이라면 무엇이든 연구해 볼 가치가 있다. • 더 나은 아키텍처 (S4, 희소 어텐션) • 규모 확장 지속 (더 큰 모델, 더 많은 데이터) • 도구 사용 (계산기, 검색 엔진) • 합성 데이터 • 멀티모달 융합 압축 후 전체 크기를 줄일 수만 있다면 인공 일반 지능(AGI)으로 나아가는 것입니다. 역사를 되돌아보면, 인공지능 분야의 모든 패러다임 전환은 본질적으로 압축적인 도약이었다. • n-그램은 기본적인 음성 인식을 가능하게 합니다. • 순환 신경망(RNN)은 논리적으로 연결된 문단을 생성하고 기계 번역을 수행할 수 있게 해줍니다. • 대규모 트랜스포머는 긴 문서를 이해하고 복잡한 추론을 수행할 수 있도록 합니다. 우리는 시간이 흐르면서 세상의 정보를 더욱 간결하게 압축하고 더욱 깊이 이해하게 된다. 물론 이러한 관점에도 한계가 있습니다. 이미지나 비디오와 같은 고차원 데이터의 경우, 픽셀 단위 모델링이 정확할 수는 있지만 비현실적일 수 있습니다. 계산 부하가 엄청날 것입니다. 먼저 의미론적 필터링을 수행해야 할 수도 있습니다. 더욱 중요한 것은 세상의 유용한 정보 중 상당수는 관찰할 수 없다는 점입니다. 예를 들어, 바둑 고수의 "탐색 트리"에서는 두었던 수만 볼 수 있고, 고려했던 분기는 볼 수 없습니다. 이것이 바로 알파제로가 자기 자신과 대결해야 하는 이유입니다. 관찰 불가능한 데이터를 생성하기 위해서죠. 그러므로 관측 가능한 데이터를 압축하는 것은 필요조건이지만, 충분조건은 아닙니다. 강화 학습과 능동적 탐색은 여전히 중요한 학습 방법입니다. 하지만 어쨌든 압축 기술은 지능을 이해하는 새로운 관점을 제공합니다. 모델이 "새로운 기능을 갖추게 되었다"라고 말할 때, 그것은 본질적으로 압축률이 특정 임계점을 넘어섰다는 것을 의미하는 것일까요? 모델이 어떤 개념을 "이해한다"라고 말할 때, 그것은 모델이 관련 정보를 더욱 간결하게 표현하는 방법을 찾았다는 것을 의미하는 것일까요? 인공 일반 지능(AGI)을 추구할 때, 우리는 우주에서 가장 최소한의 설명 가능한 정보 길이를 찾고 있는 것일까요? 이 질문들에 대한 표준적인 답은 없습니다. 하지만 바로 그 점이 이 분야를 그토록 매력적으로 만드는 이유입니다. 우리는 수학과 공학을 이용하여 지능의 본질을 탐구하고 있습니다. 지능의 본질은 압축에 있을지도 모른다. 우리가 지금 하고 있는 일은 가장 단순하고 우아한 해답을 향해 나아가는 길을 따라 한 걸음씩 내딛는 것입니다.

원본 영상 주youtube.com/watch?v=dO4TPJ…lmc

向阳乔木(@vista8)의 스레드

작성자 정보

스레드 내용