これは素晴らしいと思います。生のピクセルから ViT を実行するということは、すべてを共同でトレーニングする必要があることを意味します。この貧弱なモデルは、MNIST を個別に解決し、さらに重みの完璧な計算機になることを学習する必要があります。その後、続行します... 制約は、提供するデータのみです。 これが、2021 年の @percyliang の「基礎モデル」の概念が、GPT に向けた Google と OpenAI のスプリントで非常に破壊的/冒涜的だった理由です。タスクに特化した 1000 個の異なる小さなモデルの代わりに、1000 個のタスクをモデル化する能力を持つ 1 つのスーパーモデルにすべての予算/データ/リソースを集中させます。その過程で、1) 転移学習、2) 明示的にトレーニングしたことのない機能、3) 特定のパラメーター/深度/データ露出率でのみロックが解除される創発能力が得られます。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
