@Jsevillamol 및 @EpochAIResearch와 함께 진행한 새로운 연구에서는 대규모 사전 학습 실행을 얼마나 분산화할 수 있으며, 비용은 얼마나 될까요? 10GW 규모의 가상 분산 클러스터를 모델링한 결과, 네트워킹에 대한 추가 자본 지출이 총 예산의 1% 미만임을 확인했습니다.
@Jsevillamol @EpochAIResearch 왜 이렇게 할까요? 일반적으로 단일 모놀리식 클러스터가 더 선호되는데, 분산형 학습의 엔지니어링 복잡성이 더 크기 때문입니다. 하지만 10GW에서는 전력 제약이 더욱 심각해집니다. 지리적으로 분산된 사이트를 네트워킹하면 도움이 될 수 있습니다!
@Jsevillamol @EpochAIResearch 이를 위해서는 굵은 파이프가 필요하지만 광섬유를 깔는 비용은 전체 대역폭에 비례하지 않습니다. 이미 파고 있는 도랑에 여러 가닥을 끼워 넣을 수 있습니다. 이렇게 하면 네트워크 시간을 낮게 유지할 수 있습니다. 우리 모델에서는 전체 감소 과정에서 총 학습 시간이 약 5%입니다.
@Jsevillamol @EpochAIResearch Microsoft는 이미 이러한 전략을 추진하고 있는 것으로 보이며, WAN 규모의 분산형 컴퓨팅(및 추론)을 예상하여 중서부 전역에 수많은 광섬유를 깔고 있습니다.
@Jsevillamol @EpochAIResearch 이건 재밌는 가정이었습니다. 미국 전역에서 활용도가 낮은 발전 자산을 어떻게 활용할 수 있을지 살펴보고, 필요한 10GW 용량을 갖춘 최소 네트워크 토폴로지를 찾았습니다. 전체 보고서는 여기에서 읽을 수 있습니다.
@Jsevillamol @EpochAIResearch @Jsevillamol과 @EpochAIResearch, 그리고 이 보고서에 기여한 모든 분들께 감사드립니다!