申し訳ありませんが、これは愚かな質問ですが、ラボではネイティブサマリー/コンパクションのモデルも強化学習していますか? たとえば、答えの前に多くの思考トークンを使用して単一の推論パスを実行するのではなく、実際には複数の推論パスを実行し、次のパスが前のパスによって生成された要約にアクセスできるということですか? つまり、「考える考える考える → 答える」ではなく、「考える考える考える → 要約する → 考える考える考える → 要約する → 考える考える考える → 答える」となり、その後、それについて RL するのですか? つまり、人間は問題を解決する方法なのです。私たちは頭の中にすべての推論を保存しているわけではなく、実際に問題を解決する前に、ノイズをガベージコレクションして問題のより良いメンタルモデル(つまり、要約)を段階的に構築できる洞察/アハの瞬間を持っています。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。