jk241282
User给 Claude Code + DeepSeek 装上眼睛和耳朵:本地多模态 Skills 套装,支持图片识别/OCR(Ollama minicpm-v)和语音转文字(faster-whisper large-v3-turbo),纯本地运行无需云服务
3 indexed · 0 Featured · 0 stars · avg score 58
Categories
Indexed Skills (3)
AI & Automation Listed
audio-local
当用户发送音频文件或要求语音转文字、音频转录、录音识别时使用此 skill。使用本地 faster-whisper large-v3-turbo 进行语音识别。转录完成后,由 Claude 直接对文本进行总结、分析、翻译等后续处理。触发场景:用户上传音频/录音、要求语音转文字、会议转录、提取音频内容等。
0 Updated 1 weeks ago
jk241282 AI & Automation Listed
image-local
当用户要求生成图片、画图、创作图像时使用此 skill��使用本地 SDXL Turbo 模型进行文生图,GPU 加速 1 步出图。触发场景:用户说"生成一张图片"、"画一个"、"帮我画"、"generate an image"、"创作一张图"等任何要求用文字生成图片的场景。
0 Updated 1 weeks ago
jk241282 AI & Automation Listed
vision-local
当用户发送图片、粘贴截图、要求分析/识别/描述图片内容时使用此 skill。使用本地 Ollama minicpm-v:8b 视觉模型分析图片,让纯文本模型具备识图能力。触发场景:用户上传图片、询问图片内容、要求 OCR 提取图中文字、分析截图、描述照片、问"图片里有什么"等。一旦出现图片相关任务,立即使用本 skill,不要尝试直接用 Read 工具读取图片。
0 Updated 1 weeks ago
jk241282 Bio shown is the top-scored skill's repo description as a fallback — real GitHub bios land in a future update.