omnimedialisted

Multimodal AI - Gemini for analysis (vision/transcribe/OCR/extract); image generation via Codex (ChatGPT subscription), Gemini/Imagen, OpenRouter, MiniMax; video, speech, music via Gemini + MiniMax.
vanducng/skills · ★ 2 · AI & Automation · score 74

Install: claude install-skill vanducng/skills

# Omnimedia Process audio, images, videos, documents using Gemini. Generate images via **Codex (ChatGPT subscription)**, Google/Imagen, OpenRouter, or MiniMax. Generate videos, speech, music via Gemini + MiniMax. ## Setup ```bash # Google Gemini (analysis + image/video gen) export GEMINI_API_KEY="your-key" # https://aistudio.google.com/apikey # OpenRouter (optional image-generation router / non-Google models) export OPENROUTER_API_KEY="your-key" # https://openrouter.ai/settings/keys # MiniMax (image/video/speech/music gen) export MINIMAX_API_KEY="your-key" # https://platform.minimax.io/user-center/basic-information/interface-key pip install google-genai python-dotenv pillow requests # Codex CLI (subscription image gen - no API key required) brew install codex # or per https://developers.openai.com/codex/cli codex login # ChatGPT Plus/Pro/Business/Enterprise/Edu codex login status # expects: "Logged in using ChatGPT" ``` ### API Key Rotation (Optional) For high-volume Gemini usage, configure multiple keys: ```bash export GEMINI_API_KEY="key1" export GEMINI_API_KEY_2="key2" # auto-rotates on rate limit ``` ## Quick Start **Verify setup**: `python scripts/check_setup.py` **Analyze media**: `python scripts/gemini_batch_process.py --files <file> --task <analyze|transcribe|extract>` **Generate (Codex subscription)**: `python scripts/gemini_batch_process.py --task generate --provider codex --prompt "desc"` **Generat