這一結果意味著基準勞動生產力成長趨勢翻了一番——使我們的估計值處於近期研究的較高水準。如果模型得到改進,這項影響可能會更大。
我們的研究有其限制:最重要的是,Claude 無法利用聊天視窗之外發生的事情來改進其對任務層級節省的估計。 但隨著模型的改進,我們認為它對任務層面節省成本的估算也會隨之提高。我們將很快繼續這項研究。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年11月25日 下午1:06
這一結果意味著基準勞動生產力成長趨勢翻了一番——使我們的估計值處於近期研究的較高水準。如果模型得到改進,這項影響可能會更大。
我們的研究有其限制:最重要的是,Claude 無法利用聊天視窗之外發生的事情來改進其對任務層級節省的估計。 但隨著模型的改進,我們認為它對任務層面節省成本的估算也會隨之提高。我們將很快繼續這項研究。