RT @shao__meng: アンドレイ・カルパシーの2025年度LLM年次レビュー:6つの「パラダイムシフト」 1. RLVR:2025年までに、強化学習は検証可能な報酬(RLVR)からLLMトレーニングの新たな標準段階へと移行します。数学やコードといった客観的な領域において、長期間にわたって報酬を最適化することで、モデルは自然に人間のような「推論」を示すようになります。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。