vision-locallisted
Install: claude install-skill jk241282/-deepseek-skills
# 本地视觉模型识图
当前模型是纯文本模型,无法直接理解图片。将图片分析任务交给本地 Ollama 部署的 `minicpm-v:8b` 视觉模型。
## 执行步骤
### 1. 确认图片路径
用户可能:
- 在消息中粘贴图片(Claude Code 保存为临时文件,路径通常在 `/tmp/` 或用户消息中显示)
- 提供文件路径
- 拖拽图片
获取图片的绝对路径。
### 2. 调用本地视觉模型
运行本 skill 附带的脚本(将 `<skill目录>` 替换为实际路径):
```bash
python "<skill目录>/scripts/analyze_image.py" "<图片路径>" "<用户问题>"
```
脚本会自动将图片转为 base64,调用 `localhost:11434` 的 Ollama API,返回模型分析结果。
### 3. 解读并呈现结果
将脚本输出的文字直接呈现给用户。如果模型分析的是英文,翻译为中文呈现。
## 常用提示词模板
根据用户意图选择合适的 prompt 传给模型:
| 场景 | 提示词 |
|------|--------|
| 通用描述 | 请详细描述这张图片的内容 |
| OCR 提取 | 请提取图片中的所有文字,保持原有格式 |
| 截图分析 | 这是一张截图,请分析界面内容和功能 |
| 图表理解 | 请分析这张图表,提取数据和趋势 |
| 物体识别 | 请识别图片中的物体/人物/场景 |
| 代码截图 | 请提取图片中的代码为文本格式 |
## 故障排查
- **Ollama 未运行**: 提示用户执行 `ollama serve`
- **模型未安装**: 执行 `ollama pull minicpm-v:8b`
- **图片路径不存在**: 用 Read 工具先确认文件存在
- **超时**: 大图片分析可能较慢,等待时间最长 120 秒