小互 (@imxiaohu): 「Kling O1」模型核心功能解析这是业界首个实现「多任务一体化」的多模态视频生成模型。它能理解文字、图片、视频等多种输入，自动识别…

"클링 O1" 모델의 핵심 기능 분석 이는 '멀티태스크 통합'을 실현한 업계 최초의 멀티모달 비디오 생성 모델입니다. 텍스트, 이미지, 비디오 등 다양한 입력을 이해하고, 사용자가 하려는 작업을 자동으로 인식한 후, 원하는 비디오를 생성하거나 기존 비디오를 편집할 수 있습니다. 과거에는 각 작업마다 하나의 모델이 있었습니다. 현재: 하나의 O1 모델로 모든 것을 해결합니다. O1 모델은 기본 수준에서 여러 비디오 작업의 긴밀한 융합을 달성합니다. 텍스트-비디오 - 이미지/주제 참조 생성(참조-비디오) - 비디오 편집 및 인페인팅 - 비디오 스타일 전환(Video Restyle) - 샷 확장 및 타임랩스 내러티브(다음/이전 샷 생성) - 키프레임 제한 비디오 생성 이전에는 여러 모델이나 별도의 도구가 필요했던 복잡한 프로세스를 이제 단일 엔진 내에서 완료할 수 있습니다. 이를 통해 제작 및 계산 비용이 크게 절감될 뿐만 아니라, "통합된 비디오 이해 및 생성 모델"을 개발할 수 있는 기반도 마련됩니다.

1. 올인원 명령: 단 한 문장으로 영상을 수정하세요! 이 기능은 혁신적입니다. O1은 텍스트, 이미지, 주제, 비디오 등 모든 모달리티를 입력으로 받아들이고 의미적 이해와 명령어 구문 분석을 수행합니다. 입력 화면을 실행 가능한 명령으로 구문 분석합니다. 사용자는 자연어 명령을 사용하여 비디오를 직접 제어하고 편집할 수 있습니다. 지나가는 사람들을 이미지에서 제거합니다. "낮 풍경을 황혼으로 바꿔요." "주인공의 의상을 검은색 트렌치코트로 바꿔보세요."

2. O1 모델에도 '메모리'가 있습니다! O1 모델은 교차 모달 일관성 모델링 기능을 강화하여 생성 과정에서 참조 주제의 구조, 재료, 조명 및 스타일의 안정성을 유지합니다. 예를 들어: 캐릭터(트렌치코트를 입은 젊은 흑인 남성)의 사진을 업로드합니다. 그런 다음 그는 다양한 장면에 등장합니다. 거리, 비오는 밤, 우주... O1은 그 사람이 완전히 동일한 외모, 피부색, 특징을 가진 동일인이라는 것을 자동으로 인식합니다.

심지어 여러 주인공과 사물을 기억할 수도 있습니다. 영상 속에서 다양한 캐릭터가 상호작용하도록 허용합니다. 스타일, 옷차림, 자세에서 일관성을 유지하세요.

3. 슈퍼 조합 : 다양한 스킬을 자유롭게 중첩할 수 있습니다. O1 모델은 다음과 같이 서로 다른 작업 간의 결합된 통화를 허용합니다. 비디오에서 새로운 주제를 추가하고 동시에 스타일을 수정합니다. 동시에 렌즈를 확장하고 환경을 변경합니다. 비디오를 편집하는 동안 의미론적 조명과 그림자를 조정합니다. 이 메커니즘을 통해 비디오 생성 프로세스가 "단일 함수 호출"에서 "의미 수준 작업 오케스트레이션"으로 업그레이드됩니다. 높은 수준의 유연성과 혁신적 잠재력을 보유하고 있습니다.