実は非常に重要な点があります。LLM-as-judgeは、報酬モデルとして再学習された別のBaguettotronです。つまり、500mパラメータで完全に機能するRLシステムを実現できるのです。「実験的/奇妙な詩を非常に好むため、20% を超えるとスパイスが多すぎる」 => このモデルに自分自身をあまりにも多く入れすぎた可能性があります。