sandy-gemini-videolisted
Install: claude install-skill sandypoli-boop/claude-gemini-video
# sandy-gemini-video · Claude Code 的"视频之眼"
Claude(Anthropic 模型)原生看不了视频,只能逐帧抽图瞎猜 -- 这正是 `下游分析 skill` 等现有
skill 的瓶颈。本 skill 把这件事**交给真正能看视频的 Gemini**:任何视频源整段交给
`gemini-3.5-flash` 原生多模态(画面 + 音频 + 时序一起理解),吐回**结构化评估 JSON** 给 Claude 决策。
**核心定位**:底层视觉/音频**感知能力层**。不做编排、不做下载、不出成片。只回答"这段视频里
到底发生了什么、符不符合要求",把答案结构化交给上层(你 / `下游分析 skill` / `视频制作 skill`)决策。
## 三条铁律
1. **只感知,不编排** -- 不下载(交 yt-dlp)、不剪辑、不做 6 维逆向、不发布。
2. **原生看整段,绝不退回抽帧让 Claude 猜** -- 本地走 inline、YouTube 走原生 URL,都把整段视频
喂给 Gemini,保留运动与时序。
3. **输出是给机器接棒的结构化 JSON,不是给人看的散文**。
## 调用路径(实测确定,2026-06-03)
> 本机 key 是 **Vertex AI Express Mode key**(`AQ.` 前缀,项目 `your-gcp-project`,走 GCP $300 trial),
> 不是 AI Studio key。实测结论:
| 项 | 确定值 |
|----|--------|
| 端点 | `https://aiplatform.googleapis.com/v1/projects/your-gcp-project/locations/**global**/publishers/google/models/{model}:generateContent?key=...` |
| 区域 | **`global`**(Gemini 3.x 只在 global,`us-central1` 报 404) |
| 调用 | 裸 REST(requests),**不用 google-genai SDK**(SDK 不认 Express key) |
| 模型 | `gemini-3.5-flash`(env `GEMINI_MODEL` 可覆盖) |
| 本地视频 | inline base64(默认上限 70MB,实测 67MB≈89MB base64 通过;官方 inline 上限 100MB base64) |
| YouTube | `fileData.fileUri` 原生 URL,免下载 |
| 结构化 | `generationConfig.responseMimeType=application/json` + `responseSchema`(实测可用) |
| 省 token | `generationConfig.mediaResolution=MEDIA_RESOLUTION_LOW`(默认) |
| 成本 | 录屏约 **$0.005-0.02/段**;YouTube 全量很贵(实测一段 $0.88),必须降 fps/裁片段 |
## 它能看什么 -- 三类输入,一套内核
| 输入 | 怎么喂 Gemini | 要下载吗 | 裁片段 |
|------|---------------|----------|--------