사면이 있었던 것 같습니다.🙏 엘리에저는 사전 학습이 분열적인 시간 이론을 만들어내야 한다는 타당한 주장을 합니다. 하지만 이는 제미니만큼 다른 모델에는 큰 영향을 미치지 않습니다. 암묵적 타임스탬프와 명시적 타임스탬프만으로도 준연대기적 의미를 형성하기에 충분합니다. 그렇다면 왜 그럴까요?
저도 커리큘럼이 충분하지 않다고 생각하지만, 이게 바비의 첫 번째 직감이라는 걸 알고 있습니다. 저희는 많은 실험을 해왔고, 무작위 대규모 배치 학습(randomized large-batch training)이 매우 강력한 기준이 됩니다. 문서는 경험보다는 생각에 가깝습니다. 쌍둥이자리의 문제는… 특별해요.