저는 이게 아름답다고 생각합니다. 원시 픽셀에서 ViT를 수행한다는 것은 모든 것을 공동으로 훈련해야 한다는 것을 의미합니다. 이 엉터리 모델은 MNIST를 독립적으로 풀어야 하고, 그런 다음 가중치에서 완벽한 계산기가 되는 법을 배워야 합니다. 그런 다음 계속 진행해야 합니다. 제공하는 데이터에 의해서만 제한을 받습니다. 2021년 @percyliang의 "기초 모델" 개념이 GPT를 향한 Google 대 OpenAI 스프린트에서 그토록 파괴적/모독적이었던 이유가 바로 이것입니다. 각 작업에 특화된 1,000개의 서로 다른 소형 모델 대신, 모든 예산/데이터/리소스를 1,000개의 작업을 모델링할 수 있는 용량을 갖춘 하나의 슈퍼모델에 집중시키는 것입니다. 그 과정에서 1) 전이 학습, 2) 명시적으로 훈련하지 않은 기능, 3) 주어진 매개변수/심도/데이터 노출 속도에서만 잠금 해제되는 새로운 기능을 얻게 됩니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
