X (Twitter)

Google Research의 최신 논문인 "중첩 학습"은 Transformer를 기반으로 하여 "주의만 있으면 된다"라는 슬로건을 경험적 현상에서 더 깊고 보편적인 수학적 원리로 격상시켰습니다. 본 논문은 딥러닝 모델, 특히 LLM을 재검토하고 개선하기 위해 중첩 학습(Nested Learning)의 새로운 패러다임을 제안합니다. 핵심 주장은 기존의 딥러닝이 단순히 계층을 쌓는 것이 아니라, 중첩된 다단계 최적화 문제를 통해 맥락 정보를 "압축"하여 뇌와 유사한 기억 및 학습 메커니즘을 구현한다는 것입니다. 이는 LLM의 "맥락 학습" 능력을 설명할 뿐만 아니라, LLM의 정적 및 망각 문제를 극복할 수 있는 수학적으로 투명하고 신경과학적으로 타당한 해결책을 제시합니다. 본 논문의 핵심 개념과 기여는 신경망을 중첩된 다단계 병렬 최적화 문제로 모델링하며, 각 단계는 서로 다른 "맥락 흐름"과 높은 빈도에서 낮은 빈도까지(예: 빠른 단기 기억에서 느린 장기 기억으로) 업데이트 빈도에 대응합니다. 이는 신경생리학의 기억 강화 과정에서 영감을 얻었습니다. 뇌는 온라인 시냅스 강화(실시간 조정)와 오프라인 시스템 강화(장기 저장)를 통해 정보를 처리합니다. 기존의 딥러닝은 종종 "환상"으로 여겨집니다. 심층적인 아키텍처를 가지고 있는 것처럼 보이지만 실제로는 암묵적인 중첩 최적화를 통해 기울기나 주의 신호를 압축합니다. 본 논문의 주요 기여는 세 가지 측면을 포함합니다. 1. 심층 옵티마이저: 심층 옵티마이저(예: Adam 또는 모멘텀 기반 SGD)를 경사 압축 손실(예: ℓ₂ 회귀)을 최소화하여 과거 정보를 "기억"하는 "연관 메모리 모듈"로 재해석합니다. 저자들은 심층 모멘텀 경사 하강법(DMGD)을 도입하거나, 다층 MLP를 사용하여 비선형 모멘텀을 처리하거나, 표현력을 향상시키기 위해 전처리기를 추가하는 등 이러한 옵티마이저를 확장합니다. 이를 통해 최적화 프로세스는 고정된 규칙이 아닌 학습 가능한 하위 모듈에 더 가까워집니다. 2. 자가 수정 타이탄(Self-Modifying Titans): 메타 학습과 유사하게 자체 업데이트 알고리즘을 동적으로 수정할 수 있는 시퀀스 모델 유형입니다. 에이전트가 학습 중에 매개변수 업데이트를 "내성적으로" 조정하여 더 높은 적응성을 달성할 수 있도록 합니다. 3. 연속체 기억 시스템(CMS): 각 계층이 서로 다른 주기(예: C 단계마다 한 번씩)로 업데이트되는 주파수 계층적 다층 기억 시스템(MLP) 체인으로, 단기 기억에서 장기 기억까지의 연속적인 스펙트럼을 시뮬레이션합니다. CMS와 자가 수정 타이탄(Titan)을 결합하여 HOPE 아키텍처를 구축합니다. HOPE 아키텍처는 지속적인 학습과 장기 맥락 추론을 지원하는 효율적인 언어 모델입니다. 이러한 기여는 수학 공식(예: 연관 메모리 min_M ˜L(M(K); V)의 최적화 목표 또는 모멘텀 업데이트 m_{t+1} = α m_t - η ∇L)을 통해 엄격하게 정의되어 투명성과 확장성을 보장합니다. 방법 및 기술적 세부 사항 정규화(NL)의 핵심은 다중 시간 척도 업데이트입니다. 모델은 선형 계층 또는 어텐션 메커니즘으로 분해되며, 각 계층은 고유한 그래디언트 흐름을 갖습니다. 예를 들면 다음과 같습니다. • 간단한 MLP 훈련은 로컬 놀라움 신호(LSS, 출력과 목표의 불일치)를 사용하여 경사 하강을 구동하는 단일 단계 최적화로 볼 수 있습니다. 선형 주의 메커니즘은 2단계로 구성됩니다. 내부 계층은 내적 유사성을 통해 메모리를 업데이트하고, 외부 계층은 투영 행렬을 최적화합니다. • 모멘텀과 같은 최적화 프로그램은 키-값 메모리로 확장됩니다. 키는 과거 그래디언트이고 값은 사전 조건자 P_i로, 보다 강력한 압축을 달성합니다. HOPE 아키텍처는 CMS(다단계 MLP 체인: y_t = MLP^{(f_k)}(...MLP^{(f_1)}(x_t)...))와 자체 수정 메커니즘을 통합하여 병렬 계산을 지원하고 Transformer의 2차 복잡도를 피합니다. 학습 과정에서 내부 계층은 즉각적인 패턴을 포착하기 위해 빠르게 업데이트되는 반면, 외부 계층은 장기 지식을 천천히 통합하여 치명적인 망각을 완화합니다. 저자들은 3억 4천만 개에서 13억 개의 매개변수를 갖는 모델을 언어 모델링(WikiText, LAMBADA)과 상식 추론 과제(PIQA, HellaSwag 등)에서 3,000억 개에서 1,000억 개의 토큰을 포함하는 사전 학습된 데이터를 사용하여 테스트했습니다. 테스트에는 Transformer++, RetNet, DeltaNet, Titans가 포함되었습니다. 그 결과, HOPE는 복잡도와 정확도 모두에서 상당히 우수한 성능을 보였습니다. • HOPE는 7억 6천만 개의 매개변수/300억 개의 토큰 설정을 통해 평균 정확도 46.90%와 LAMBADA 복잡도 29.38을 달성하여 기준선보다 약 5-10% 더 우수한 성능을 보였습니다. • 13억 개의 매개변수/1000억 개의 토큰을 사용하면 평균 정확도는 57.23%이고, WikiText 복잡도는 15.11로 상당한 개선을 보여줍니다. 토론 및 영향 NL 패러다임은 딥러닝의 본질을 보여줍니다. 바로 LLM의 퓨샷 학습(Few-Shot Learning)과 같은 맥락 압축을 통해 "창발적" 역량을 확보하는 것입니다. 그러나 이 패러다임은 또한 한계점을 드러냅니다. 모델은 정적 배포 후 분포 변화에 취약하기 때문입니다. HOPE와 같은 혁신은 다단계 중첩을 통해 이러한 문제를 완화하고, 미래 아키텍처가 "계층 심도"에서 "레벨 심도"로 전환되도록 유도하며, 로봇 공학이나 다중 모드 시스템에 잠재적으로 적용될 수 있습니다. 종이 주소

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용