ついに、合成演習に基づく体系的な評価が、アーキテクチャ評価の標準となりつつあります(Kimi-Linearより)。この道を先導してくれたPhysics of Language Modelsに深く感謝します。HellaSwag の暗黒時代から一歩ずつ抜け出しています。