X (Twitter)

Yann LeCun과 Randall Balestriero가 쓴 LeJEPA의 새 논문을 방금 읽었습니다. Yann이 최근 어떤 연구를 하고 있는지 궁금했는데, 특히 LLM에 대한 그의 비판을 생각하면 더욱 그렇습니다. (저는 LLM이 계속 발전해서 조만간 ASI(미국 국립과학원)로 발전할 것이라고 생각하기 때문에 그의 비판에 동의하지 않습니다.) 어쨌든, X에는 이미 이 논문과 그 논문이 소개하는 내용에 대한 여러 스레드가 있습니다. 간단히 말해서, 이 논문은 자기 지도 학습에 대한 원칙적이고 이론적으로 정당화되며 간결한 접근 방식으로, 자기 지도 학습의 골칫거리인 모드 붕괴를 방지하기 위해 임시방편적이고 허술한 휴리스틱들을 복잡하게 뒤섞어 대체하는 것입니다. 여기서 모델이 망가지고 모든 입력을 거의 동일한 임베딩이나 좁은 임베딩 하위 공간에 매핑하기 시작하여 문제의 모든 풍부함을 병적으로 단순하고 잘못된 대응으로 붕괴시킵니다. 새로운 접근 방식의 첫 번째 기둥은 등방성 가우스 분포가 최악의 하류 예측 위험을 유일하게 최소화한다는 것을 증명한 것입니다. 그 글을 읽자마자 저는 즉시 CMA-ES를 떠올렸습니다. 최소화하려는 함수의 그래디언트에 접근할 수 없고 (비용이 많이 들거나 느린) 함수 평가만 수행할 수 있는 경우에 사용할 수 있는 최고의 블랙박스 최적화 알고리즘입니다. 니콜라우스 한센은 1996년에 CMA-ES를 처음 소개한 이래로 계속해서 연구해 왔습니다. 저는 이 접근 방식에 항상 매료되어 왔으며, 2011년에 비효율적인 그리드 탐색을 하는 대신 이를 사용하여 딥 신경망의 하이퍼 매개변수를 효율적으로 탐색하는 데 큰 성공을 거두었습니다. 어쨌든 제가 이 문제를 제기하는 이유는 그 접근 방식과 LeJEPA의 핵심 사이에 놀라울 정도로 유사하고 깊은 연관성이 있기 때문입니다. CMA-ES는 다음과 같이 말합니다. 분산 제약 조건만 주어졌을 때 최대 엔트로피(편향이 가장 적은) 분포인 등방성 가우시안 분포로 시작합니다. 그런 다음 공분산을 조정하여 문제의 기하 구조를 학습합니다. LeJEPA는 다음과 같이 말합니다: 알려지지 않은 미래 작업에 대해 최대 엔트로피(가장 편향되지 않은) 분포이기 때문에 등방성 가우시안 분포를 유지하세요. 두 사람 모두 불확실성 하에서 등방성이 최적이라는 것을 세 가지 이유로 인정합니다. 최대 엔트로피 원리; 고정된 분산을 갖는 모든 분포 중에서 등방성 가우시안 분포는 최대 엔트로피를 갖습니다. 즉, 가장 적은 가정을 합니다. 방향적 편향이 없습니다. 모든 방향에서 동일한 분산이 있다는 것은 특정 문제 구조에 미리 집착하지 않는다는 것을 의미합니다. 최악의 최적성을 얻습니다. 가능한 모든 문제 기하학에서 최대 후회를 최소화합니다. 그렇다면 차이점은 무엇일까요? 바로 적응 타이밍입니다. CMA-ES는 최적화 과정에서 적응할 수 있습니다. 처음에는 등방성으로 시작하지만, 특정 최적화 환경을 학습하면서 이방성으로 변합니다. 이와 대조적으로 LeJEPA는 아직 발견되지 않은 알려지지 않은 하류 작업을 준비하기 때문에 등방성을 유지해야 합니다. 이러한 유사점은 LeJEPA가 최적화 이론의 기본 원리를 표현 학습에 적용하고 있음을 시사합니다. 이는 본질적으로 다음과 같습니다. "블랙박스 최적화를 위한 최적의 검색 분포는 전이 학습을 위한 최적의 임베딩 분포이기도 합니다." 이는 두 문제 모두 알려지지 않은 영역을 탐색하는 것과 관련이 있기 때문에 의미가 있습니다. CMA-ES의 경우 이는 알려지지 않은 최적화 영역이고, LeJEPA의 경우 이는 알려지지 않은 다운스트림 작업 공간입니다. 이러한 차이 때문에 저는 다음과 같은 의문을 품게 됩니다. CMA-ES가 최적화 과정에서 적응하는 방식과 유사하게, 등방성으로 시작하지만 후속 작업을 알게 되면 임베딩 분포를 조정하는 "적응형 LeJEPA"를 구현할 수 있을까요? 이는 특정 작업군에 적합한 이방성을 메타 학습하는 것과 같을 것입니다. 어쨌든, 이에 대한 제 생각을 공유하고 싶었습니다. 이렇게 서로 다른 분야 간의 연관성을 보는 것은 정말 흥미로웠습니다. 블랙박스 최적화 커뮤니티는 딥러닝 커뮤니티와는 항상 상당히 분리되어 있었고, 그 사이에는 교차 수분이 거의 없었습니다. 그래디언트가 있다면 사용하지 않는 게 현명하겠죠. 하지만 둘 사이에는 강력한 연관성이 있습니다.

Jeffrey Emanuel(@doodlestein)의 스레드

작성자 정보

스레드 내용