will depue (@willdepue): you tend to hear this a lot from people outside or new to ML, and I o…

머신러닝 분야에 익숙하지 않거나 관련 경험이 없는 사람들이 이런 말을 자주 하는데, 저는 종종 일리야가 몇 년 전에 했던 강연을 예로 들곤 합니다. 1) 충분한 메모리와 순차 연산 능력을 갖춘 제대로 된 심층 신경망은 마치 거대한 병렬 컴퓨터와 같다고 생각하면 됩니다. 2) 이 신경망을 훈련시키는 것은 목표 함수를 최대화하는 컴퓨터 프로그램을 탐색하는 것입니다. 3) 큰 병목 현상이 없고 (시스템 최적화가 성공적으로 이루어진다면) 이러한 병렬 컴퓨터는 아키텍처 변경에 매우 강건하다는 것을 알게 될 것입니다. 4) 이는 컴퓨터가 서로를 시뮬레이션하는 데 매우 뛰어나기 때문입니다. 새로운 아키텍처는 일반적으로 기존 아키텍처 '내부'에서 간단하게 시뮬레이션할 수 있습니다. 5) 아키텍처가 중요하지 않다는 것은 아니지만 주로 (1) 이 병렬 컴퓨터의 근본적인 병목 현상, (2) 최적화가 잘 된 경우에만 이 주장이 성립하기 때문에 모델 최적화를 더 쉽게 만드는 수정 사항, (3) 학습을 더 쉽거나 빠르게 만드는 컴퓨팅 효율성/시스템 효율성 이점과 관련하여 중요합니다. 6) 새로운 아키텍처가 머신러닝에 획기적인 발전을 가져올 가능성이 매우 높지만, 우리는 인공지능의 '형태'에 대한 자연주의적 직관이 아니라 먼저 병목 현상부터 해결해야 합니다. 이 점을 이해하기 전까지는, 더 오래 학습된 작은 모델이 덜 학습된 큰 모델보다 더 나은 성능을 보이는 것, 깊이와 너비가 놀랍도록 상호 교환 가능한 것, MoE, 희소 어텐션 또는 선형 어텐션을 사용하는 모델과 상호 작용하는 방식이 평가 측면에서 거의 동일한 것처럼 보이는 것이 놀라울 수 있습니다.

will depue(@willdepue)의 스레드

작성자 정보

스레드 내용