我们在最难的强化学习任务——神经多目标优化3(Neural MMO 3)上取得了明显的SOTA(最先进水平),训练步数达到6500亿(每次运行超过1PB的观测数据)。计算浮点运算次数和参数均达到匹配水平。 问题在于:为了让它发挥作用,我需要在性能上与 cuDNN LSTM 竞争。而这个网络需要多个卷积核。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月25日 02:03
我们在最难的强化学习任务——神经多目标优化3(Neural MMO 3)上取得了明显的SOTA(最先进水平),训练步数达到6500亿(每次运行超过1PB的观测数据)。计算浮点运算次数和参数均达到匹配水平。 问题在于:为了让它发挥作用,我需要在性能上与 cuDNN LSTM 竞争。而这个网络需要多个卷积核。