最後,基於綜合練習的系統性評估正逐漸成為架構評估的標準方法(來自 Kimi-Linear)。非常感謝 Physics of Language Models 的領導。一步一步走出HellaSwag的黑暗時代。