これは、ML の外部の人や初心者からよく聞かれる話です。私はよく、数年前に Ilya が行った講演を引用します。 1) 十分なメモリとシーケンシャルオペレーションを備えた適切なディープニューラルネットワークは、単なる巨大な並列コンピュータであると考えることができる。 2) このニューラルネットを訓練することは、目的を最大化するコンピュータプログラムを検索することである 3) 大きなボトルネックがない限り (そしてこのシステムをうまく最適化できる場合)、これらの並列コンピューターはアーキテクチャの変更に対して非常に堅牢であることがわかります。 4) これは、コンピューターが互いのシミュレーションに優れているためです。新しいアーキテクチャは通常、古いアーキテクチャの「内部」で簡単にシミュレーションできます。 5) アーキテクチャが重要ではないということではありませんが、主に (1) この並列コンピュータの基本的なボトルネック、(2) モデルの最適化を容易にする変更 (この議論は最適化が優れている場合にのみ成立するため)、(3) 計算効率/システム効率が勝って学習が容易または高速になる、という点に関して重要です。 6) 新しいアーキテクチャが機械学習の飛躍的な進歩につながる可能性は十分にありますが、まずは AI がとるべき「形式」についての自然主義的な直感ではなく、ボトルネックから始める必要があります。これを理解するまでは、長期間トレーニングされた小さなモデルが十分にトレーニングされていない大きなモデルよりも優れていること、深さと幅が驚くほど互換性があること、MoE またはスパース アテンションまたは線形アテンションを持つモデルと対話することがほぼ同じ等値評価であることは驚くべきことのように思えます。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。