构建一个拥有 1 千万亿个参数的语言模型并非完全不可能(除了从哪里获取所有这些数据之外)。 虽然考虑到上下文和键值缓存,你可能需要比这多 25% 的 GPU。 10万台H100或许就能做到
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月5日 22:24
构建一个拥有 1 千万亿个参数的语言模型并非完全不可能(除了从哪里获取所有这些数据之外)。 虽然考虑到上下文和键值缓存,你可能需要比这多 25% 的 GPU。 10万台H100或许就能做到