正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月6日 09:18
常见的解释是,模型本身就需要学习,而Transformer是我们目前已知最易于扩展的技术。但这引出了一个问题:为什么Transformer是我们唯一知道如何扩展的技术?这不仅仅是沉没成本的问题。