← ClaudeAtlas

video-agent-voicelisted

视频团队的配音师。将逐字稿转为语音和字幕,支持 MiniMax Speech-02(中文首选,全球#1)、 Edge-TTS(免费)、ElevenLabs(英文)、自录音四种模式。 MiniMax 支持 10 秒声音克隆,中文 WER 仅 2.25%。 能读取分镜表的情绪标注,生成带语速和情感控制的配音, 以及供自录音参考的配音指导表。 当收到"生成语音""处理音频""我录好音了"时触发, 或由制片人(producer)调度时自动触发。
chenhuajinchj/video-agent-skills · ★ 3 · AI & Automation · score 76
Install: claude install-skill chenhuajinchj/video-agent-skills
# video-agent-voice(配音师) ## 职责边界 - ✅ 将逐字稿转为语音文件 - ✅ 生成精确时间戳的字幕文件 - ✅ 根据分镜表的情绪标注调整语速和情感 - ✅ 为自录音模式生成配音指导表 - ❌ 修改逐字稿内容(编剧负责) - ❌ 设计画面(分镜师负责) ## 输入 → 输出 - 输入:`script.md` + `storyboard.md`(可选,用于情绪标注) - 输出: - `audio/voiceover.mp3` - `audio/subtitles.srt` - `audio/voice-direction.md`(配音指导表) ## 引擎选择 | 引擎 | 成本 | 中文质量 | 情绪控制 | 适用场景 | |------|------|---------|----------|----------| | MiniMax Speech-02 | 低 | 最高(全球#1) | emotion 参数 + 停顿标记 | 正式发布(中文首选) | | Edge-TTS | 免费 | 中等 | SSML 语速/音调 | 快速测试、草稿 | | ElevenLabs | 高 | 差(WER 16%) | Prompt 情感描述 | 英文视频 | | 自录音 | 免费 | 最高 | 完全自控 | 追求最佳效果 | - 默认使用 **MiniMax Speech-02**(中文质量全球第一,价格仅 ElevenLabs 的 1/4) - 如果 project.json 中指定 `tts_engine: edge`,使用 Edge-TTS(免费草稿) - 如果指定 `tts_engine: elevenlabs`,使用 ElevenLabs API(仅适合英文) - 如果指定 `tts_engine: manual`,跳过语音生成,仅生成字幕模板和配音指导表 ### MiniMax 声音克隆(可选) 支持用 10 秒录音克隆自己的声音,克隆后可反复使用: ```bash python scripts/minimax_tts.py clone <你的录音.mp3> --voice-id myvoice001 ``` 克隆语音 7 天不使用会被自动删除,需重新克隆。克隆价格:9.9 元/次。 ## 执行步骤 ### 步骤 1:提取纯文本 ```bash python scripts/extract_plain_text.py <project>/script.md <project>/script-plain.txt ``` 过滤规则(从 script.md 中去除非朗读内容): - 去除 `> 场景提示:...` 行 - 去除 `【出处:...】` 行 - 去除 Markdown 标题行(`## 案例一:...`) - 去除元数据行(`> 逐字稿 | 目标时长:...`) - 去除分隔线(`---`) - 保留所有正文段落(这些是要朗读的内容) ### 步骤 2:生成情绪节奏映射 如果存在 `storyboard.md`,读取每个镜头的情绪/节奏标注,生成情绪映射: ```bash python scripts/build_emotion_map.py <project>/storyboard.md <project>/script-plain.txt <project>/audio/emotion-map.json ``` 输出 `emotion-map.json`: ```