sandy-gemini-videolisted

Use when 分析视频、看视频、视频画面分析、Gemini 分析视频、看懂视频、视频内容理解、录屏分析、录屏质检、判断录屏能不能用、视频素材筛选、批量分析视频、分析下载的视频、分析油管视频、YouTube 视频分析、在线分析视频、视频打分、视频评估、这段视频里发生了什么、画面里有什么、视频符不符合要求, or any task that hinges on UNDERSTANDING WHAT HAPPENS INSIDE a video (画面 + 音频 + 时序) -- 本地录屏 / 下载的视频文件 / YouTube 在线链接皆可。它把整段视频交给 Gemini 原生多模态(gemini-3.5-flash,非抽帧瞎猜)分析,吐回结构化评估 JSON 给 Claude 接棒决策。Make sure to use this skill whenever a task depends on what is visually or aurally inside a video -- 即使用户没明说"用 Gemini",只要需要看懂视频画面内容 (而不只是下载或拿字幕),就用本 skill。 Do not over-trigger:只下载视频不分析 -> yt-dlp;只要字幕/纯文字摘要 -> video-to-subtitle-summary; 做你自己的视频(口播稿/分镜/成片)-> 视频制作 skill;6 维博主全方位逆向 -> 下游分析 skill (它会反过来调用本 skill 做视觉/音频维度)。
sandypoli-boop/claude-gemini-video · ★ 1 · AI & Automation · score 80

Install: claude install-skill sandypoli-boop/claude-gemini-video

# sandy-gemini-video · Claude Code 的"视频之眼" Claude(Anthropic 模型)原生看不了视频,只能逐帧抽图瞎猜 -- 这正是 `下游分析 skill` 等现有 skill 的瓶颈。本 skill 把这件事**交给真正能看视频的 Gemini**:任何视频源整段交给 `gemini-3.5-flash` 原生多模态(画面 + 音频 + 时序一起理解),吐回**结构化评估 JSON** 给 Claude 决策。 **核心定位**:底层视觉/音频**感知能力层**。不做编排、不做下载、不出成片。只回答"这段视频里到底发生了什么、符不符合要求",把答案结构化交给上层(你 / `下游分析 skill` / `视频制作 skill`)决策。 ## 三条铁律 1. **只感知,不编排** -- 不下载(交 yt-dlp)、不剪辑、不做 6 维逆向、不发布。 2. **原生看整段,绝不退回抽帧让 Claude 猜** -- 本地走 inline、YouTube 走原生 URL,都把整段视频喂给 Gemini,保留运动与时序。 3. **输出是给机器接棒的结构化 JSON,不是给人看的散文**。 ## 调用路径(实测确定,2026-06-03) > 本机 key 是 **Vertex AI Express Mode key**(`AQ.` 前缀,项目 `your-gcp-project`,走 GCP $300 trial), > 不是 AI Studio key。实测结论: | 项 | 确定值 | |----|--------| | 端点 | `https://aiplatform.googleapis.com/v1/projects/your-gcp-project/locations/**global**/publishers/google/models/{model}:generateContent?key=...` | | 区域 | **`global`**(Gemini 3.x 只在 global,`us-central1` 报 404) | | 调用 | 裸 REST(requests),**不用 google-genai SDK**(SDK 不认 Express key) | | 模型 | `gemini-3.5-flash`(env `GEMINI_MODEL` 可覆盖) | | 本地视频 | inline base64(默认上限 70MB,实测 67MB≈89MB base64 通过;官方 inline 上限 100MB base64) | | YouTube | `fileData.fileUri` 原生 URL,免下载 | | 结构化 | `generationConfig.responseMimeType=application/json` + `responseSchema`(实测可用) | | 省 token | `generationConfig.mediaResolution=MEDIA_RESOLUTION_LOW`(默认) | | 成本 | 录屏约 **$0.005-0.02/段**;YouTube 全量很贵(实测一段 $0.88),必须降 fps/裁片段 | ## 它能看什么 -- 三类输入,一套内核 | 输入 | 怎么喂 Gemini | 要下载吗 | 裁片段 | |------|---------------|----------|--------