为什么模型不能可靠到所有“等效”的提示都能取得同样好的效果?因为梯度下降法会产生“锯齿状”的泛化结果。 但提示优化器的主要作用在于揭示有关环境/任务的*新*信息,而这些信息甚至在原始规范中都没有明确提及。 这可能是因为此类信息较为微妙、层次较低,或者实际上依赖于模型*。@ChrisGPotts 将这些称为“潜在需求”。 *请记住,自然语言本身就具有歧义性,但解决这种歧义的方式因说话者而异。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月12日 22:05
为什么模型不能可靠到所有“等效”的提示都能取得同样好的效果?因为梯度下降法会产生“锯齿状”的泛化结果。 但提示优化器的主要作用在于揭示有关环境/任务的*新*信息,而这些信息甚至在原始规范中都没有明确提及。 这可能是因为此类信息较为微妙、层次较低,或者实际上依赖于模型*。@ChrisGPotts 将这些称为“潜在需求”。 *请记住,自然语言本身就具有歧义性,但解决这种歧义的方式因说话者而异。