← ClaudeAtlas

vision-locallisted

当用户发送图片、粘贴截图、要求分析/识别/描述图片内容时使用此 skill。使用本地 Ollama minicpm-v:8b 视觉模型分析图片,让纯文本模型具备识图能力。触发场景:用户上传图片、询问图片内容、要求 OCR 提取图中文字、分析截图、描述照片、问"图片里有什么"等。一旦出现图片相关任务,立即使用本 skill,不要尝试直接用 Read 工具读取图片。
jk241282/-deepseek-skills · ★ 0 · AI & Automation · score 58
Install: claude install-skill jk241282/-deepseek-skills
# 本地视觉模型识图 当前模型是纯文本模型,无法直接理解图片。将图片分析任务交给本地 Ollama 部署的 `minicpm-v:8b` 视觉模型。 ## 执行步骤 ### 1. 确认图片路径 用户可能: - 在消息中粘贴图片(Claude Code 保存为临时文件,路径通常在 `/tmp/` 或用户消息中显示) - 提供文件路径 - 拖拽图片 获取图片的绝对路径。 ### 2. 调用本地视觉模型 运行本 skill 附带的脚本(将 `<skill目录>` 替换为实际路径): ```bash python "<skill目录>/scripts/analyze_image.py" "<图片路径>" "<用户问题>" ``` 脚本会自动将图片转为 base64,调用 `localhost:11434` 的 Ollama API,返回模型分析结果。 ### 3. 解读并呈现结果 将脚本输出的文字直接呈现给用户。如果模型分析的是英文,翻译为中文呈现。 ## 常用提示词模板 根据用户意图选择合适的 prompt 传给模型: | 场景 | 提示词 | |------|--------| | 通用描述 | 请详细描述这张图片的内容 | | OCR 提取 | 请提取图片中的所有文字,保持原有格式 | | 截图分析 | 这是一张截图,请分析界面内容和功能 | | 图表理解 | 请分析这张图表,提取数据和趋势 | | 物体识别 | 请识别图片中的物体/人物/场景 | | 代码截图 | 请提取图片中的代码为文本格式 | ## 故障排查 - **Ollama 未运行**: 提示用户执行 `ollama serve` - **模型未安装**: 执行 `ollama pull minicpm-v:8b` - **图片路径不存在**: 用 Read 工具先确认文件存在 - **超时**: 大图片分析可能较慢,等待时间最长 120 秒