가장 어려운 RL 과제인 Neural MMO 3에서 650B 훈련 단계(실행당 1PB 이상의 관측치)를 사용하여 명확한 SOTA를 구현했습니다. 플롭 매칭과 매개변수 매칭을 수행했습니다. 문제는 무엇일까요? 이 기능을 유용하게 만들기 위해 cuDNN LSTM과 성능을 놓고 경쟁하고 있습니다. 그리고 이 네트워크는 여러 개의 커널을 필요로 합니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
