我与 @Jsevillamol 和 @EpochAIResearch 合作开展了一项新研究,探讨大型预训练运行可以实现多大的去中心化程度,以及成本是多少?我们构建了一个假设的 10GW 去中心化集群模型,发现额外的网络资本支出不到总预算的 1%。
@Jsevillamol @EpochAIResearch 为什么要这样做?通常来说,单一的整体集群是更可取的,尤其考虑到分散式训练带来的额外工程复杂性。但对于 10GW 的容量来说,电力限制更加严峻。将地理位置分散的站点联网或许能有所帮助!
@Jsevillamol @EpochAIResearch 这需要粗管道,但铺设光纤的成本并不会随着总带宽的增加而增加——你可以在已经挖好的同一条沟渠里铺设很多根光纤。这使得网络运行时间很短,在我们的模型中,使用 all-reduce 算法时,网络运行时间仅占总训练时间的约 5%。
@Jsevillamol @EpochAIResearch 微软似乎已经在推行这样的策略,正在中西部地区铺设大量光纤,以应对广域网规模的去中心化计算(和推理)。
@Jsevillamol @EpochAIResearch 这是一个很有趣的假设性研究。我们探讨了如何利用美国各地未充分利用的发电资产,并找到了一种能够满足10GW容量要求的最小网络拓扑结构。点击此处阅读完整报告:
@Jsevillamol @EpochAIResearch 感谢 @Jsevillamol 和 @EpochAIResearch 以及所有其他为这份报告做出贡献的人!