vision-locallisted

当用户发送图片、粘贴截图、要求分析/识别/描述图片内容时使用此 skill。使用本地 Ollama minicpm-v:8b 视觉模型分析图片，让纯文本模型具备识图能力。触发场景：用户上传图片、询问图片内容、要求 OCR 提取图中文字、分析截图、描述照片、问"图片里有什么"等。一旦出现图片相关任务，立即使用本 skill，不要尝试直接用 Read 工具读取图片。
jk241282/-deepseek-skills · ★ 0 · AI & Automation · score 58

Install: claude install-skill jk241282/-deepseek-skills

# 本地视觉模型识图当前模型是纯文本模型，无法直接理解图片。将图片分析任务交给本地 Ollama 部署的 `minicpm-v:8b` 视觉模型。 ## 执行步骤 ### 1. 确认图片路径用户可能： - 在消息中粘贴图片（Claude Code 保存为临时文件，路径通常在 `/tmp/` 或用户消息中显示） - 提供文件路径 - 拖拽图片获取图片的绝对路径。 ### 2. 调用本地视觉模型运行本 skill 附带的脚本（将 `<skill目录>` 替换为实际路径）： ```bash python "<skill目录>/scripts/analyze_image.py" "<图片路径>" "<用户问题>" ``` 脚本会自动将图片转为 base64，调用 `localhost:11434` 的 Ollama API，返回模型分析结果。 ### 3. 解读并呈现结果将脚本输出的文字直接呈现给用户。如果模型分析的是英文，翻译为中文呈现。 ## 常用提示词模板根据用户意图选择合适的 prompt 传给模型： | 场景 | 提示词 | |------|--------| | 通用描述 | 请详细描述这张图片的内容 | | OCR 提取 | 请提取图片中的所有文字，保持原有格式 | | 截图分析 | 这是一张截图，请分析界面内容和功能 | | 图表理解 | 请分析这张图表，提取数据和趋势 | | 物体识别 | 请识别图片中的物体/人物/场景 | | 代码截图 | 请提取图片中的代码为文本格式 | ## 故障排查 - **Ollama 未运行**: 提示用户执行 `ollama serve` - **模型未安装**: 执行 `ollama pull minicpm-v:8b` - **图片路径不存在**: 用 Read 工具先确认文件存在 - **超时**: 大图片分析可能较慢，等待时间最长 120 秒