我觉得这很棒——从原始像素进行 ViT 训练意味着你需要联合训练所有部分——这个可怜的模型必须独立解决 MNIST 数据集,然后还要学习如何完美地计算权重。然后继续……唯一限制它的是你提供的数据。 这就是为什么 @percyliang 在 2021 年提出的“基础模型”概念在谷歌与 OpenAI 争夺 GPT 的竞争中如此具有颠覆性/颠覆性的原因:与其开发 1000 个各自专注于特定任务的小模型,不如将所有预算/数据/资源集中到一个能够模拟 1000 个任务的超级模型中;在此过程中,您将获得 1) 迁移学习,2) 您从未明确训练过的能力,3) 只有在给定的参数/深度/数据暴露率下才能解锁的涌现能力。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
