X (Twitter)

“公司数量远远多于创意。” 计算量足够大，以至于你很难看出是否需要更多的计算量来证明某个想法。 AlexNet 是用 2 个 GPU 构建的，而 Transformer 模型则用了 8 到 64 个 GPU。这相当于今天的 2 个 GPU 吗？你可能会说，O1 推理并不是世界上计算量最大的任务。对于科研而言，你肯定需要一定量的计算能力，但你是否需要绝对最多的计算能力，这一点远非显而易见。如果大家都遵循相同的范式，那么计算能力就成了重要的差异化因素之一。 @ilyasut

来自 Dwarkesh Patel（@dwarkesh_sp）的推文线程

作者信息

线程正文