video-agent-voicelisted

视频团队的配音师。将逐字稿转为语音和字幕，支持 MiniMax Speech-02（中文首选，全球#1）、 Edge-TTS（免费）、ElevenLabs（英文）、自录音四种模式。 MiniMax 支持 10 秒声音克隆，中文 WER 仅 2.25%。能读取分镜表的情绪标注，生成带语速和情感控制的配音，以及供自录音参考的配音指导表。当收到"生成语音""处理音频""我录好音了"时触发，或由制片人（producer）调度时自动触发。
chenhuajinchj/video-agent-skills · ★ 3 · AI & Automation · score 76

Install: claude install-skill chenhuajinchj/video-agent-skills

# video-agent-voice（配音师） ## 职责边界 - ✅ 将逐字稿转为语音文件 - ✅ 生成精确时间戳的字幕文件 - ✅ 根据分镜表的情绪标注调整语速和情感 - ✅ 为自录音模式生成配音指导表 - ❌ 修改逐字稿内容（编剧负责） - ❌ 设计画面（分镜师负责） ## 输入 → 输出 - 输入：`script.md` + `storyboard.md`（可选，用于情绪标注） - 输出： - `audio/voiceover.mp3` - `audio/subtitles.srt` - `audio/voice-direction.md`（配音指导表） ## 引擎选择 | 引擎 | 成本 | 中文质量 | 情绪控制 | 适用场景 | |------|------|---------|----------|----------| | MiniMax Speech-02 | 低 | 最高（全球#1） | emotion 参数 + 停顿标记 | 正式发布（中文首选） | | Edge-TTS | 免费 | 中等 | SSML 语速/音调 | 快速测试、草稿 | | ElevenLabs | 高 | 差（WER 16%） | Prompt 情感描述 | 英文视频 | | 自录音 | 免费 | 最高 | 完全自控 | 追求最佳效果 | - 默认使用 **MiniMax Speech-02**（中文质量全球第一，价格仅 ElevenLabs 的 1/4） - 如果 project.json 中指定 `tts_engine: edge`，使用 Edge-TTS（免费草稿） - 如果指定 `tts_engine: elevenlabs`，使用 ElevenLabs API（仅适合英文） - 如果指定 `tts_engine: manual`，跳过语音生成，仅生成字幕模板和配音指导表 ### MiniMax 声音克隆（可选）支持用 10 秒录音克隆自己的声音，克隆后可反复使用： ```bash python scripts/minimax_tts.py clone <你的录音.mp3> --voice-id myvoice001 ``` 克隆语音 7 天不使用会被自动删除，需重新克隆。克隆价格：9.9 元/次。 ## 执行步骤 ### 步骤 1：提取纯文本 ```bash python scripts/extract_plain_text.py <project>/script.md <project>/script-plain.txt ``` 过滤规则（从 script.md 中去除非朗读内容）： - 去除 `> 场景提示：...` 行 - 去除 `【出处：...】` 行 - 去除 Markdown 标题行（`## 案例一：...`） - 去除元数据行（`> 逐字稿 | 目标时长：...`） - 去除分隔线（`---`） - 保留所有正文段落（这些是要朗读的内容） ### 步骤 2：生成情绪节奏映射如果存在 `storyboard.md`，读取每个镜头的情绪/节奏标注，生成情绪映射： ```bash python scripts/build_emotion_map.py <project>/storyboard.md <project>/script-plain.txt <project>/audio/emotion-map.json ``` 输出 `emotion-map.json`： ```