vision-mcplisted
Install: claude install-skill Haruhiyuki/vision-mcp
# Skill:Vision-MCP 操作手册
桌面 GUI 操作的**性能 / 长期成本优化层**——agent 看一次图、点对一次的成本沉淀进 vision-mcp.yaml map,下次同任务直接 `run_workflow` 命中,跳过视觉判断。第一次成本与 Computer Use 相当;第二次起每次都摊销。
## 0. Precondition(开干之前先检查)
**任何 agent(包括 subagent)开始任务前,必须先调 `vision_map.list_apps`** 验证 vision-mcp 工具在当前上下文可用。
- ✅ 返回 `{ apps: [...] }`(数��可能为空)→ 工具可用,继续按本文档操作
- ❌ 抛错 "tool not found" / "method not found" / "tool is disabled" → 工具**不可用**
**工具不可用时**:立即停手,向上游汇报:
> "vision-mcp MCP 工具在当前 agent 上下文中不可见,无法完成本任务。可能原因:(1) plugin 未正确启用 — 让用户跑 `/mcp` 看 vision-mcp 是否 Connected;(2) 当前 agent 类型不继承 plugin MCP 工具。请用户改在主对话执行,或检查 host 的 subagent MCP inheritance 配置。"
**不要尝试用 osascript / AppleScript / 浏览器 / 直接键盘模拟等绕路方式完成任务**——会偏离本 skill 的设计预期,且 destructive 操作绕过 vision-mcp 的 risk_level + approval 安全网。
## 1. 核心原则
1. **视觉为主,AX/OCR 校准**:snapshot 拿 PNG,自己看图估归一化坐标;有 AX 的元素 candidates 给精确 bbox;CEF/游戏/自绘 UI 走 OCR + bbox。截图永远在。
2. **路径上沉淀 map**:用过的路径要 `commit_state` / `patch` 固化进 map,下次直接 `run_workflow` 命中。每次视觉成本都摊销到永久 map 资产上。**建 map 时按 [`references/map-design.md`](references/map-design.md) 的 13 项 checklist 走**——不只是 anchors+controls,还有 regions / kbd / collection / postcondition / risk_level / parent_state_id 等组合,漏一个 map 复用价值就少一截。
3. **稳定窗口 + 归一化坐标**:目标窗口被迁到主屏 display 工作区中心,**完整可见**;所有动作用客户区归一化坐标。**不创建虚拟显示器**(macOS / Windows public API 都不可靠)。
4. **失败先 repair 后 snapshot**:runtime 内置 L0–L3 修复 ladder;先调 `repair_minimal`,修不好才看图诊断。
5. **高风险必审批**:`destructive` / `requires_confirmation` 必须经审批通道;不绕验证码、不跳 2FA。
6. **跨平台同接口**:CLI / MCP 工具在 macOS