「Kling O1」モデルのコア機能の分析 業界初の「マルチタスク統合」を実現したマルチモーダル映像生成モデルです。 テキスト、画像、動画などさまざまな入力を理解し、何をしたいのかを自動的に認識して、必要な動画を生成したり、既存の動画を編集したりすることができます。 以前は、タスクごとに 1 つのモデルがありました。 現在: 1 つの O1 モデルですべてを実行できます。 O1 モデルは、基礎レベルで複数のビデオ タスクの深い融合を実現します。 テキストからビデオへ - 画像/被写体参照生成(ビデオ参照) - ビデオ編集と修復 - ビデオスタイルの転送(ビデオリスタイル) - ショットの拡張とタイムラプスナラティブ(次/前のショット生成) - キーフレーム制約付きビデオ生成 以前は複数のモデルや個別のツールを必要としていた複雑なプロセスを、単一のエンジン内で完了できるようになりました。 これにより、作成と計算のコストが大幅に削減されるだけでなく、「統合されたビデオ理解および生成モデル」の開発の基盤も築かれます。
1. オールインワンコマンド:たった 1 つの文でビデオを編集できます。 この機能は革命的です。 O1 は、テキスト、画像、件名、ビデオなど、あらゆるモダリティを入力として受け取り、意味理解と命令解析を実行します。 入力画面を実行可能なコマンドに解析します。 ユーザーは自然言語コマンドを使用してビデオを直接制御および編集できます。 画像から通行人を削除します。 「昼間のシーンを夕暮れに変更します。」 「主人公の衣装を黒のトレンチコートに変更します。」
2. O1モデルには「メモリ」も搭載! O1 モデルは、クロスモーダル一貫性モデリング機能を強化し、生成プロセス中に参照対象の構造、材料、照明、スタイルの安定性を維持します。 例えば: キャラクター(トレンチコートを着た若い黒人男性)の写真をアップロードします。 その後、彼はさまざまな場面で登場します: 路上、雨の夜、宇宙空間... O1 は、外見、肌の色、特徴が完全に同一であるため、同一人物であることを自動的に認識します。
複数のメインキャラクターやオブジェクトを記憶することもできます。 さまざまなキャラクターがビデオ内で対話できるようにします。 スタイル、服装、姿勢の一貫性を保ちます。
3.スーパーコンビネーション:様々なスキルを自由に組み合わせることができます。 O1 モデルでは、異なるタスク間の呼び出しの組み合わせが可能です。例: ビデオに新しい主題を追加し、同時にスタイルを変更します。 レンズを拡張すると同時に環境を変更します。 ビデオ編集中にセマンティックドリブンの照明と影の調整を実行します。 このメカニズムにより、ビデオ生成プロセスは「単一の関数呼び出し」から「セマンティックレベルのタスクオーケストレーション」にアップグレードされます。 高い柔軟性と革新の潜在能力を備えています。
4. マルチモーダルコマンド入力表示 画像参照生成 メイン被写体内の参考画像、キャラクター、小道具、シーンなど、さまざまな要素をサポートし、クリエイティブな動画を柔軟に生成できます。
ビデオ本文を変更する
スタイルの変更
特定のオブジェクトを削除する
特定のオブジェクトを追加する
ビデオリファレンス ビデオコンテンツを参照して前の/次のショットを生成する機能をサポートします。
動画の動きやカメラワークを参考にすることもできます。 創造的なアイデアを生み出す
最初のフレーム画像の追加、または最初と最後のフレームの同時追加をサポートし、シーンの遷移、カメラの動き、キャラクターのアクションなどのテキスト説明も追加できるため、ビデオプロセス全体を最初から最後まで正確に制御できます。
Kling O1 モデルコア機能分析および操作ガイxiaohu.ai/c/ai-2b1dc7/ai…vil



