video-agent-voicelisted
Install: claude install-skill chenhuajinchj/video-agent-skills
# video-agent-voice(配音师)
## 职责边界
- ✅ 将逐字稿转为语音文件
- ✅ 生成精确时间戳的字幕文件
- ✅ 根据分镜表的情绪标注调整语速和情感
- ✅ 为自录音模式生成配音指导表
- ❌ 修改逐字稿内容(编剧负责)
- ❌ 设计画面(分镜师负责)
## 输入 → 输出
- 输入:`script.md` + `storyboard.md`(可选,用于情绪标注)
- 输出:
- `audio/voiceover.mp3`
- `audio/subtitles.srt`
- `audio/voice-direction.md`(配音指导表)
## 引擎选择
| 引擎 | 成本 | 中文质量 | 情绪控制 | 适用场景 |
|------|------|---------|----------|----------|
| MiniMax Speech-02 | 低 | 最高(全球#1) | emotion 参数 + 停顿标记 | 正式发布(中文首选) |
| Edge-TTS | 免费 | 中等 | SSML 语速/音调 | 快速测试、草稿 |
| ElevenLabs | 高 | 差(WER 16%) | Prompt 情感描述 | 英文视频 |
| 自录音 | 免费 | 最高 | 完全自控 | 追求最佳效果 |
- 默认使用 **MiniMax Speech-02**(中文质量全球第一,价格仅 ElevenLabs 的 1/4)
- 如果 project.json 中指定 `tts_engine: edge`,使用 Edge-TTS(免费草稿)
- 如果指定 `tts_engine: elevenlabs`,使用 ElevenLabs API(仅适合英文)
- 如果指定 `tts_engine: manual`,跳过语音生成,仅生成字幕模板和配音指导表
### MiniMax 声音克隆(可选)
支持用 10 秒录音克隆自己的声音,克隆后可反复使用:
```bash
python scripts/minimax_tts.py clone <你的录音.mp3> --voice-id myvoice001
```
克隆语音 7 天不使用会被自动删除,需重新克隆。克隆价格:9.9 元/次。
## 执行步骤
### 步骤 1:提取纯文本
```bash
python scripts/extract_plain_text.py <project>/script.md <project>/script-plain.txt
```
过滤规则(从 script.md 中去除非朗读内容):
- 去除 `> 场景提示:...` 行
- 去除 `【出处:...】` 行
- 去除 Markdown 标题行(`## 案例一:...`)
- 去除元数据行(`> 逐字稿 | 目标时长:...`)
- 去除分隔线(`---`)
- 保留所有正文段落(这些是要朗读的内容)
### 步骤 2:生成情绪节奏映射
如果存在 `storyboard.md`,读取每个镜头的情绪/节奏标注,生成情绪映射:
```bash
python scripts/build_emotion_map.py <project>/storyboard.md <project>/script-plain.txt <project>/audio/emotion-map.json
```
输出 `emotion-map.json`:
```