Transformer++ 是一篇真实的论文,但这个术语通常用于指代 LLaMA2 算法,我记得最早是在 Mamba 论文中提出的。 我认为我们现在已经有了好几个“变形金刚+++”了。DSMoE之后的行业标准可以再加一个“+”,而它最成熟的版本就是Zaya。 我个人评选出的顶级候选人名单:
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月9日 03:54
Transformer++ 是一篇真实的论文,但这个术语通常用于指代 LLaMA2 算法,我记得最早是在 Mamba 论文中提出的。 我认为我们现在已经有了好几个“变形金刚+++”了。DSMoE之后的行业标准可以再加一个“+”,而它最成熟的版本就是Zaya。 我个人评选出的顶级候选人名单: