这是一次*非凡的*发布。Zyphra 是最顶尖的实验室之一,但却被严重低估,我希望现在他们能改变这种状况,因为他们现在负责指导 AMD 进行机器学习。CCGQA 基本上就是 MLA+,他们用 0.76B 的活跃内存击败了 Qwen3-4B,论文内容极其详实。一定要读。
“超越”这个词用得有点重了,它的确效率更高,基础模型也达到了相当的水平,但要达到Qwen成熟的后训练模型的水平,还需要做很多工作,他们把这部分留到以后再做。不过,现在他们已经积累了相当多的后训练知识。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月25日 00:10
这是一次*非凡的*发布。Zyphra 是最顶尖的实验室之一,但却被严重低估,我希望现在他们能改变这种状况,因为他们现在负责指导 AMD 进行机器学习。CCGQA 基本上就是 MLA+,他们用 0.76B 的活跃内存击败了 Qwen3-4B,论文内容极其详实。一定要读。
“超越”这个词用得有点重了,它的确效率更高,基础模型也达到了相当的水平,但要达到Qwen成熟的后训练模型的水平,还需要做很多工作,他们把这部分留到以后再做。不过,现在他们已经积累了相当多的后训练知识。