正直に言うと、彼らはDSAを完全に放棄して、より細粒度のNSAに戻ってくるか、チャンクからトップKトークンへと徐々に切り替え、さりげなく新しい事前学習アルゴリズムを導入するという、クレイジーなハイブリッドな手法をとっているように見えます。DPSA、DeepSeek Progressive Sparse Attention、Whaleスタイルといった具合です。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
1 件のツイート · 2025/12/05 12:39
正直に言うと、彼らはDSAを完全に放棄して、より細粒度のNSAに戻ってくるか、チャンクからトップKトークンへと徐々に切り替え、さりげなく新しい事前学習アルゴリズムを導入するという、クレイジーなハイブリッドな手法をとっているように見えます。DPSA、DeepSeek Progressive Sparse Attention、Whaleスタイルといった具合です。