我们在生产环境中使用接种提示进行 Claude 训练。我们建议将其作为后备措施,以防止在其他缓解措施失效的情况下,奖励作弊行为导致泛化偏差。
想了解更多研究结果,请阅读我们的博客文章:https://t.co/GLV9GcgvO6 anthropic.com/research/emerg…FEkW3r70u6
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月21日 19:30
我们在生产环境中使用接种提示进行 Claude 训练。我们建议将其作为后备措施,以防止在其他缓解措施失效的情况下,奖励作弊行为导致泛化偏差。
想了解更多研究结果,请阅读我们的博客文章:https://t.co/GLV9GcgvO6 anthropic.com/research/emerg…FEkW3r70u6