Google은 LLM 프레임워크 내에서 지속적 학습 시 발생하는 치명적인 망각 문제를 해결하기 위해 중첩 학습이라는 새로운 머신 러닝 패러다임을 공개했습니다. 핵심 아이디어는 모델을 단일의 거대한 개체로 훈련하는 것이 아니라, 중첩된 작은 학습 시스템의 집합으로 훈련하는 것입니다. 이 접근법은 모델을 통합된 학습 과정이 아닌, 각 하위 시스템이 자체적인 학습 리듬과 정보 흐름을 갖는 여러 중첩된 최적화 문제들의 시스템으로 취급합니다. 이를 통해 LLM이 긴 맥락을 처리하는 능력을 향상시키고 지속적인 학습을 가능하게 합니다. 그들은 Hope라는 자체 수정 아키텍처 모델을 사용하여 이 접근 방식을 테스트하고 검증했으며, 그 결과 이 모델이 기존의 최첨단 모델보다 장기 컨텍스트 메모리 관리 기능이 더 뛰어나다는 것을 보여주었습니다. 이 알고리즘은 언어 모델링과 상식적 추론 작업에서 Titans, Samba, 베이스라인 Transformer보다 우수한 성능을 보이며, 긴 맥락 관리에서는 Titans, TTT, Mamba2보다 우수한 성능을 보입니다. 먼저, 매개변수를 계층화하고, 동일한 가중치 행렬을 업데이트 주기(주기 1, 4, 16, 64... 단계)에 따라 W₁, W₂, ..., Wₙ로 나눕니다. 연속 기억 체계는 기억을 서로 다른 모듈이 서로 다른 기간의 정보를 담당하는 "스펙트럼"으로 보고, 이를 통해 학습한 내용을 잊어버리는 것을 방지합니다. 심층 최적화는 최적화 프로그램을 연관 메모리 모듈로 처리하여 개선되었으며, 이를 통해 목적 함수가 개선되고 노이즈에 대한 견고성이 향상되었습니다. 훈련 코드는 "나중에 업데이트" 조건을 한 줄만 추가했습니다. 나머지 프레임워크는 변경되지 않았습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
