시드는 잠재적 루프 트랜스포머를 수행합니다. 상당히 성숙한 방법이며, 모델은 토큰을 쉽게 얻기 위해 두 번의 루프에서 종료될 수 있습니다. 이렇게 하면 연산량은 절약되지 않지만, 데이터 예산에서 더 나은 결과를 얻을 수 있습니다. 이 방법이 얼마나 확장 가능한지 보여주는 상당한 규모의 MoE(MoE)를 볼 수 있기를 바랍니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
