DeepSeek 的理論基礎非常紮實,它憑藉 NSA 贏得了 ACL 的最佳論文,但似乎對大規模應用的結果並不滿意,於是設計了一種更好的架構,該架構還可以使用完整的注意力模型,並發表了該架構,同時還共享了權重。 我們常常懷疑谷歌的做法恰恰相反。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年11月25日 下午4:15
DeepSeek 的理論基礎非常紮實,它憑藉 NSA 贏得了 ACL 的最佳論文,但似乎對大規模應用的結果並不滿意,於是設計了一種更好的架構,該架構還可以使用完整的注意力模型,並發表了該架構,同時還共享了權重。 我們常常懷疑谷歌的做法恰恰相反。