jk241282

User

给 Claude Code + DeepSeek 装上眼睛和耳朵：本地多模态 Skills 套装，支持图片识别/OCR（Ollama minicpm-v）和语音转文字（faster-whisper large-v3-turbo），纯本地运行无需云服务

3 indexed · 0 Featured · 0 stars · avg score 58

View on GitHub →

Indexed Skills (3)

AI & Automation Listed

audio-local

当用户发送音频文件或要求语音转文字、音频转录、录音识别时使用此 skill。使用本地 faster-whisper large-v3-turbo 进行语音识别。转录完成后，由 Claude 直接对文本进行总结、分析、翻译等后续处理。触发场景：用户上传音频/录音、要求语音转文字、会议转录、提取音频内容等。

0 Updated 1 weeks ago

jk241282

AI & Automation Listed

image-local

当用户要求生成图片、画图、创作图像时使用此 skill��使用本地 SDXL Turbo 模型进行文生图，GPU 加速 1 步出图。触发场景：用户说"生成一张图片"、"画一个"、"帮我画"、"generate an image"、"创作一张图"等任何要求用文字生成图片的场景。

0 Updated 1 weeks ago

jk241282

AI & Automation Listed

vision-local

当用户发送图片、粘贴截图、要求分析/识别/描述图片内容时使用此 skill。使用本地 Ollama minicpm-v:8b 视觉模型分析图片，让纯文本模型具备识图能力。触发场景：用户上传图片、询问图片内容、要求 OCR 提取图中文字、分析截图、描述照片、问"图片里有什么"等。一旦出现图片相关任务，立即使用本 skill，不要尝试直接用 Read 工具读取图片。

0 Updated 1 weeks ago

jk241282

Bio shown is the top-scored skill's repo description as a fallback — real GitHub bios land in a future update.

Categories

Indexed Skills (3)

audio-local

image-local

vision-local