えっと @vooooooogel @norvid_studies どうやら誘導ヘッドではないようです。誘導能力をテストする小さなスクリプトを書きました([a,b,c,d,e,f, a,b,c,d,e,f]という形式の一連のシーケンスの後半部分の精度をテストするだけです。ここで、a、b、cなどはランダムトークンです)。 そして、600ステップあたりで明確なフェーズ変化が見られ、そこで帰納法を学習します。しかし、それは2回目の損失増加からしばらく後のことです。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
![えっと @vooooooogel @norvid_studies
どうやら誘導ヘッドではないようです。誘導能力をテストする小さなスクリプトを書きました([a,b,c,d,e,f, a,b,c,d,e,f]という形式の一連のシーケンスの後半](https://pbs.twimg.com/media/G7uK6m7XcAAXR9m.jpg)