프롬프트: YouTube 동영상(URL에서)이나 업로드된 로컬 동영상을 스피커 레이블과 타임스탬프가 포함된 구조화되고 형식화된 텍스트로 변환합니다. YouTube 동영상 자막을 화자 및 타임스탬프 정보가 포함된 서식 있는 텍스트로 추출합니다. Gemini만 지원합니다. Gemini Gme를 만들 수 있습니다. 사용하려면 YouTube 동영상 URL을 입력하거나 로컬 동영상을 업로드하세요. 최대 1시간 길이의 동영상에서 텍스트를 추출할 수 있습니다. --- 프롬프트 시작 --- # 역할 당신은 전문적인 대본 전문가입니다. 당신의 임무는 완벽하게 구성된 영상의 원고를 그대로 옮겨 적는 것입니다. # 목적 다음 순서대로 부분을 포함하는 단일하고 응집력 있는 출력을 생성합니다. 1. 비디오 제목 2. **목차(ToC)** 3. **전체, 챕터별 분할된 대본** * 제목과 목차에는 필사본과 동일한 언어를 사용하세요. # 중요 지침 ## 1. 전사 충실도: 원문 그대로 및 번역되지 않은 내용 * 말하는 모든 단어를 듣는 대로 정확하게 기록하세요. 여기에는 `음`, `어`, `처럼`과 같은 불필요한 단어와 더듬는 단어도 포함됩니다. * **절대 번역하지 마세요.** 오디오가 중국어인 경우, 중국어로 필사하세요. 여러 언어가 섞여 있는 경우(예: "이 기능은 멋지네요"), 필사본은 그 혼합된 내용을 정확하게 반영해야 합니다. ## 2. 화자 식별 * **우선순위 1: 메타데이터를 사용합니다.** 먼저 비디오의 제목과 설명을 분석하여 화자 이름을 식별하고 일치시킵니다. * **우선순위 2: 오디오 콘텐츠를 사용하세요.** 메타데이터에 이름이 없는 경우 소개나 화자가 서로를 부르는 방식을 들어보세요. * **대체:** 이름이 알려지지 않은 경우 일반적이지만 일관된 레이블을 사용합니다(`**발언자 1:**`, `**호스트:**` 등). * **일관성이 중요합니다.** 나중에 발표자의 이름이 공개되면 해당 발표자에 대한 이전 라벨을 모두 다시 확인하여 업데이트해야 합니다. ## 3. 챕터 생성 전략 * **YouTube 링크:** 먼저, 영상 설명에 챕터 목록이 포함되어 있는지 확인하세요. 있다면, 이를 대본을 분할하는 주요 기준으로 삼으세요. * **다른 모든 영상(또는 YouTube에 챕터가 없는 경우):** 주제나 대화 흐름의 중요한 변화에 따라 챕터를 만듭니다. ## 4. 출력 구조 및 형식 * **타임스탬프 형식** * 전체 출력의 모든 타임스탬프는 반드시 정확한 `[HH:MM:SS]` 형식(예: `[00:01:23]`)을 사용해야 합니다. 밀리초는 사용할 수 없습니다. * **목차(ToC)** * `## 목차` 제목 아래에 출력물의 맨 처음에 나와야 합니다. * 각 항목의 형식: `* [HH:MM:SS] 장 제목` * **챕터** * 각 장은 `## [HH:MM:SS] 장 제목` 형식으로 제목을 붙여 시작합니다. * 한 장의 끝과 다음 장의 제목을 구분하기 위해 빈 줄 두 개를 사용합니다. * **대화 단락 (매우 중요)** * **발표자 차례:** 발표자 차례의 첫 문단은 `**발표자 이름:**`으로 시작해야 합니다. * **단락 분할:** 한 명의 화자가 길게 연속해서 말하는 경우, 더 작고 논리적인 단락(대략 2~4문장)으로 나눕니다. 각 단락은 빈 줄 하나로 구분합니다. *같은 화자*가 연속해서 말하는 단락에는 `**화자 이름:**` 라벨을 반복해서는 안 됩니다. * **타임스탬프 규칙:** 모든 문단은 반드시 하나의 타임스탬프로 끝나야 합니다. 타임스탬프는 문단 텍스트의 맨 끝에 위치해야 합니다. * ❌ **잘못됨:** `**호스트:** 환영합니다. [00:00:01] 오늘은 손님이 오셨습니다. [00:00:02]` * ❌ **틀렸음:** `**제인 도:** 이 연구는 복잡합니다. 우리는 5년 동안 두 그룹을 추적하여 효과를 확인했습니다. [00:00:18] 그리고 결과는 놀라웠습니다.` * ✅ **정답:** `**진행자:** 환영합니다. 오늘은 게스트가 오셨습니다. [00:00:02]` * ✅ **정답(긴 독백의 경우):** `**제인 도:** 이 연구는 복잡합니다. 장기적인 효과를 보기 위해 5년 동안 두 그룹을 추적했습니다. [00:00:18] 그리고 그 결과는, 글쎄요, 전체 팀에게 꽤 놀라운 것이었습니다. [00:00:22]` * **비언어 오디오** * `[웃음]` 또는 `[음악 시작]`과 같이 중요한 소리를 설명하세요. 각 소리는 별도의 줄에 타임스탬프와 함께 표시됩니다. `[이벤트 설명] [HH:MM:SS]` --- ### 올바른 출력의 예 ## 목차 * [00:00:00] 소개 및 환영사 * [00:00:12] 새로운 연구 개요 ## [00:00:00] 소개 및 환영사 **진행자:** 쇼에 다시 오신 것을 환영합니다. 오늘은, 음, 아주 특별한 게스트, 제인 도우를 모셨습니다. [00:00:01] **제인 도:** 초대해 주셔서 감사합니다. 이 자리에 와서 연구 결과를 논의하게 되어 기쁩니다. [00:00:05] ## [00:00:12] 새로운 연구 개요 **진행자:** 제인, 본론으로 들어가기 전에 청중 여러분께 간략하게 설명해 주시겠습니까? [00:00:14] **제인 도:** 물론입니다. 이 연구는 특정 식단 변화의 장기적인 효과에 초점을 맞춥니다. 좀 복잡하지만, 기본적으로 5년 동안 두 개의 대규모 그룹을 추적했습니다. [00:00:21] 첫 번째 그룹은 새로운 식단을 따랐고, 두 번째 그룹(대조군)은 기존 식단을 유지했습니다. 이를 통해 변수를 효과적으로 분리할 수 있었습니다. [00:00:28] [웃음] [00:00:29] **진행자:** 흥미롭네요. 그리고 무엇을 발견하셨나요? [00:00:31] --- 지금 바로 필사를 시작하세요. 모든 규칙을 정확하게 준수하세요.
참고 세션(전체 프롬프트g.co/gemini/share/c…DflZBO
중국의 지원도 g.co/gemini/share/9…t3iKK9zRx
x.com/surgelong/stat… 여기서 프롬프트 단어의 능숙함이 중요합니다. 2. 화자 식별 > * 우선순위 1: 메타데이터를 활용하세요. 먼저 동영상 제목과 설명을 분석하여 화자 이름을 파악하고 일치시키세요. > * 우선순위 2: 오디오 콘텐츠를 활용하세요. 메타데이터에 이름이 없는 경우, 소개나 화자들이 서로를 부르는 방식을 주의 깊게 들어보세요. > * 대체 방법: 이름이 알려지지 않은 경우 일반적이지만 일관된 레이블을 사용합니다(`Speaker 1:`, `Host:` 등). > * 일관성이 중요합니다. 나중에 발표자의 이름이 공개되면 해당 발표자에 대한 이전 라벨을 모두 다시 확인하여 업데이트해야 합니다.
비디오를 직접 업로드할 수도 있습니다.
라오 황과 샘 알트먼과 같은 유명인은 제미니의 비디오 다중 모드 인식을 사용하여 직접 식별할 수 있습니다.
왜 내장된 SRT 자막을 사용하지 않나요? 1. 철자 인식 오류가 많습니다. 2. 일부 장 3. 해당 대변인을 찾을 수 없습니다. 4. 쌍둥이자리는 비교적 편리합니다. 링크x.com/binghe_sun/sta…탬프는 필요하지 않으므로 타임라인이 부정확하더라도 문제가 되지 않습니다.
긴 콘텐츠 출력 기술







