花了一个小时试图弄清楚几百个额外的 CUDA 同步是从哪里来的……真是太费劲了…… // 与 Python 版本的区别:与 Python 版本不同,即使 // 跳过有限性检查(error_if_nonfinite = false),此函数 // 将引入设备与 CPU 的同步(适用于需要同步的设备) // 有意义!)以便返回 CPU 端的 `double` 类型。因此,这个 C++ 版本 // 无法相对于渐变设备完全异步运行。
它莫名其妙地开始同步了……已修复
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月25日 00:04
花了一个小时试图弄清楚几百个额外的 CUDA 同步是从哪里来的……真是太费劲了…… // 与 Python 版本的区别:与 Python 版本不同,即使 // 跳过有限性检查(error_if_nonfinite = false),此函数 // 将引入设备与 CPU 的同步(适用于需要同步的设备) // 有意义!)以便返回 CPU 端的 `double` 类型。因此,这个 C++ 版本 // 无法相对于渐变设备完全异步运行。
它莫名其妙地开始同步了……已修复