これは自己回帰的な思考の連鎖に先行するもので、ここでの推論は検索クエリと 500 万件の文書コーパスから抽出されたスニペットの長い連鎖になります。 HoVer のスコアは、現代の LLM でのプロンプトや RL では今日でも非常に一致しにくいです。
ヒゲヒゲの製作は実に骨が折れました。最終レシピだけでも、12体くらいのモデルを順番に訓練する必要がありました。 これが DSPy を開発する動機であり、DSPy を使用すると、これらのモジュール式 LLM システム/エージェントを構築し、それらすべてを実行しなくても自己トレーニングできるようになります。