Unsloth が再び登場し、3GB の VRAM で Qwen3-4b をトレーニングしています。 unslothの最新アップデートは大幅な改善です。簡単に言うと、QとKで必要だった2つのTritonカーネルを1つに統合し、可変長RoPEをサポートしました。これによりGPUメモリを大幅に節約し、計算速度が向上します(以前はQとKの計算に2つのTritonカーネルが必要でしたが、現在は1つに統合されています)。これにより、ロングコンテキスト学習において2.3倍の高速化を実現しました。 さらに、従来のint32インデックスでは500Kという非常に大きなコンテキストでのトレーニング時にCUDA境界外エラーが発生するため、int64インデックスもサポートしています。そのため、境界外エラーを回避するためにより大きな精度を使用し、より大きなコンテキストをサポートできるようにしました。
実装の詳細 / 1
実装の詳細 / 2
使い方










