我與 @Jsevillamol 和 @EpochAIResearch 合作開展了一項新研究,探討大型預訓練運行可以實現多大的去中心化程度,以及成本是多少?我們建立了一個假設的 10GW 去中心化集群模型,發現額外的網路資本支出不到總預算的 1%。
@Jsevillamol @EpochAIResearch 為什麼要這樣做?通常來說,單一的整體群集是更可取的,尤其考慮到分散式訓練帶來的額外工程複雜性。但對於 10GW 的容量來說,電力限制更加嚴峻。將地理位置分散的站點連網或許能有所幫助!
@Jsevillamol @EpochAIResearch 這需要粗管道,但鋪設光纖的成本並不會隨著總頻寬的增加而增加——你可以在已經挖好的同一條溝渠裡鋪設很多根光纖。這使得網路運行時間很短,在我們的模型中,使用 all-reduce 演算法時,網路運行時間僅佔總訓練時間的約 5%。
@Jsevillamol @EpochAIResearch 微軟似乎已經在推行這樣的策略,正在中西部地區鋪設大量光纖,以應對廣域網規模的去中心化計算(和推理)。
@Jsevillamol @EpochAIResearch 這是一個很有趣的假設性研究。我們探討如何利用美國各地未充分利用的發電資產,並找到了一種能夠滿足10GW容量要求的最小網路拓撲結構。點此閱讀完整報告:
@Jsevillamol @EpochAIResearch 感謝 @Jsevillamol 和 @EpochAIResearch 以及所有其他為這份報告做出貢獻的人!