X (Twitter)

「Kling O1」モデルのコア機能の分析業界初の「マルチタスク統合」を実現したマルチモーダル映像生成モデルです。テキスト、画像、動画などさまざまな入力を理解し、何をしたいのかを自動的に認識して、必要な動画を生成したり、既存の動画を編集したりすることができます。以前は、タスクごとに 1 つのモデルがありました。現在: 1 つの O1 モデルですべてを実行できます。 O1 モデルは、基礎レベルで複数のビデオタスクの深い融合を実現します。テキストからビデオへ - 画像/被写体参照生成（ビデオ参照） - ビデオ編集と修復 - ビデオスタイルの転送（ビデオリスタイル） - ショットの拡張とタイムラプスナラティブ（次/前のショット生成） - キーフレーム制約付きビデオ生成以前は複数のモデルや個別のツールを必要としていた複雑なプロセスを、単一のエンジン内で完了できるようになりました。これにより、作成と計算のコストが大幅に削減されるだけでなく、「統合されたビデオ理解および生成モデル」の開発の基盤も築かれます。

1. オールインワンコマンド：たった 1 つの文でビデオを編集できます。この機能は革命的です。 O1 は、テキスト、画像、件名、ビデオなど、あらゆるモダリティを入力として受け取り、意味理解と命令解析を実行します。入力画面を実行可能なコマンドに解析します。ユーザーは自然言語コマンドを使用してビデオを直接制御および編集できます。画像から通行人を削除します。「昼間のシーンを夕暮れに変更します。」「主人公の衣装を黒のトレンチコートに変更します。」

2. O1モデルには「メモリ」も搭載！ O1 モデルは、クロスモーダル一貫性モデリング機能を強化し、生成プロセス中に参照対象の構造、材料、照明、スタイルの安定性を維持します。例えば：キャラクター（トレンチコートを着た若い黒人男性）の写真をアップロードします。その後、彼はさまざまな場面で登場します: 路上、雨の夜、宇宙空間... O1 は、外見、肌の色、特徴が完全に同一であるため、同一人物であることを自動的に認識します。

複数のメインキャラクターやオブジェクトを記憶することもできます。さまざまなキャラクターがビデオ内で対話できるようにします。スタイル、服装、姿勢の一貫性を保ちます。

3.スーパーコンビネーション：様々なスキルを自由に組み合わせることができます。 O1 モデルでは、異なるタスク間の呼び出しの組み合わせが可能です。例: ビデオに新しい主題を追加し、同時にスタイルを変更します。レンズを拡張すると同時に環境を変更します。ビデオ編集中にセマンティックドリブンの照明と影の調整を実行します。このメカニズムにより、ビデオ生成プロセスは「単一の関数呼び出し」から「セマンティックレベルのタスクオーケストレーション」にアップグレードされます。高い柔軟性と革新の潜在能力を備えています。