@Jsevillamol および @EpochAIResearch と共同で行った新しい研究では、大規模な事前トレーニングの実行をどの程度分散化できるか、またコストはどの程度になるかを調べました。仮想的な 10GW の分散型クラスターをモデル化し、ネットワークの追加設備投資は総予算の 1% 未満であることがわかりました。
@Jsevillamol @EpochAIResearch なぜそうするのですか? 分散型トレーニングのエンジニアリングの複雑さが増すため、通常は単一のモノリシック クラスターが好まれます。ただし、10GW では電力制約がさらに厳しくなります。地理的に分散したサイトをネットワーク化することが役立ちます。
@Jsevillamol @EpochAIResearch それには太いパイプが必要ですが、ファイバー敷設のコストは総帯域幅に応じて変化しません。すでに掘っている同じ溝に、多数のストランドを収めることができます。これにより、ネットワーク時間が短く抑えられ、私たちのモデルでは、all-reduce で総トレーニング時間の約 5% になります。
@Jsevillamol @EpochAIResearch マイクロソフトはすでにそのような戦略を追求しているようで、WAN規模の分散コンピューティング(および推論)を見越して中西部全体に大量の光ファイバーを敷設している。
@Jsevillamol @EpochAIResearch これは面白い仮説でした。米国全土で十分に活用されていない発電資産をどのように活用できるかを検討し、必要な10GWの容量を持つ最小限のネットワークトポロジを見つけました。レポート全文はこちらをご覧ください。
@Jsevillamol @EpochAIResearch @Jsevillamol と @EpochAIResearch およびこのレポートに貢献してくれたすべての方々に感謝します!