正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月9日 21:38
Cyril 和 CTGT 团队正在将机制可解释性产品化。他们使得无需重新训练即可编辑 LLM 的行为,从而添加安全策略保证,这种方式比简单的提示要可靠得多。