这一结果意味着基准劳动生产率增长趋势翻了一番——使我们的估计值处于近期研究的较高水平。如果模型得到改进,这一影响可能会更大。
我们的研究存在局限性:最重要的是,Claude 无法利用聊天窗口之外发生的事情来改进其对任务级节省的估计。 但随着模型的改进,我们认为它对任务层面节省成本的估算也会随之提高。我们将很快继续这项研究。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月25日 13:06
这一结果意味着基准劳动生产率增长趋势翻了一番——使我们的估计值处于近期研究的较高水平。如果模型得到改进,这一影响可能会更大。
我们的研究存在局限性:最重要的是,Claude 无法利用聊天窗口之外发生的事情来改进其对任务级节省的估计。 但随着模型的改进,我们认为它对任务层面节省成本的估算也会随之提高。我们将很快继续这项研究。