최적의 전문가(즉, 평생 비용이 아닌 다운스트림 성능 목표에 대한 FLOP 학습을 최적화하는 경우에도)가 1M개 매개변수 미만이라면 미칠 듯한 일입니다. 하지만 논리적이기도 할 겁니다. 작은 모델들은 놀라울 정도로 강하거든요. 우리는 더 나은 라우팅이 필요할 뿐이야 난 이걸 어느 정도 예상했어.
100개의 좋아요가 나에게 큰 힘이 되었던 축복받은 날들
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 2개 · 2025. 11. 5. 오후 8:42
최적의 전문가(즉, 평생 비용이 아닌 다운스트림 성능 목표에 대한 FLOP 학습을 최적화하는 경우에도)가 1M개 매개변수 미만이라면 미칠 듯한 일입니다. 하지만 논리적이기도 할 겁니다. 작은 모델들은 놀라울 정도로 강하거든요. 우리는 더 나은 라우팅이 필요할 뿐이야 난 이걸 어느 정도 예상했어.
100개의 좋아요가 나에게 큰 힘이 되었던 축복받은 날들