NeurIPS 2025 最優秀論文賞は、この論文に授与されました。Attention メカニズムにより、言語モデルはどのトークンがより重要かを判断できますが、制限があります。たとえば、トークン自体の重要性に関係なく、最初に表示されるトークンに過度に焦点を当てる傾向があります。 ゲーティング メカニズム (ニューラル ネットワーク内の情報の流れを選択的に抑制または増幅する) は他のアーキテクチャを改善するため、研究者はそれを Attention にも追加しようと試みてきました。 しかし、これまでの試みでは、ゲーティングが他のアーキテクチャの変更とバンドルされることが多く、ゲーティングの貢献を単独で評価することが困難でした。 この論文では、これらの効果を分離し、最大 150 億のモデル パラメータ数を持つ 30 を超えるゲーティング バリアントを体系的にテストします。 標準的な Transformer レイヤーでは、各アテンション ヘッドが重み付けされた値の組み合わせを計算し、ヘッドの出力が連結されてから最終的な線形投影に渡されます。 この論文で最もパフォーマンスの高いアプローチは、連結の前に追加の操作を挿入することです。各ヘッドの出力は、現在のトークン表現から計算された学習済みゲートによって乗算されます (要素単位またはヘッド単位の乗算のいずれかで、要素単位の乗算が最もパフォーマンスが高くなります)。 このようにして、各ヘッドはコンテキストに基づいてその貢献を抑制したり保持したりすることができます。 これらのアーキテクチャの変更により、単なるベンチマークのわずかな改善ではなく、実際のメリットがもたらされました。 1. トレーニングはより安定し、より高い学習率をサポートしますが、ベースライン モデルはそのような学習率では発散します。 2. ゲーティングにより、「注目度の減少」、つまり初期のトークンが過剰な注目を吸収してしまう状況も大幅に減少します。 これは、長いテキストのベンチマークにおける大幅な改善に関係しており、標準的な手法を使用してコンテキスト ウィンドウを拡張すると、さらに顕著になります。 さらに詳しく知りたい方は、ChapterPal で論文を確認するか、PDF を直接読んでください。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
