数百の余分な Cuda 同期がどこから来ているのかを解明するのに 1 時間かかりました... 本当に大変です... // Python版との違い: Python版とは異なり、 // 有限性チェックをスキップする(error_if_nonfinite = false)、この関数 // デバイス CPU 同期を導入します(これにより // 意味をなさない)CPU側の`double`を返すために、このC++バージョンは // グラデーションのデバイスに対して完全に非同期的に実行することはできません。
まったく理由もなく同期していました...ここで修正しました
