gemma4-local-deploy

Solid

在本机 Mac 或 Apple Silicon 上部署 Gemma 4 12B。本地安装/升级 llama.cpp,下载 GGUF 量化模型,用 llama-server 暴露 OpenAI-compatible API,或用 Ollama 暴露本地模型服务;按用户需求在默认 Q4_K_M、64K/128K 长上下文、QAT Q4_0 @ 256K、左右对比演示之间选择,配置 tmux 后台运行,验证健康检查、问答接口、资源占用和常见故障。当用户说部署 Gemma 4、Gemma 4 12B、本地大模型、长上下文、QAT、量化、llama-server、Ollama、GGUF、Mac 本地模型服务时使用。

AI & Automation 207 stars 21 forks Updated today MIT

Install

View on GitHub

Quality Score: 90/100

Stars 20%
77
Recency 20%
100
Frontmatter 20%
70
Documentation 15%
100
Issue Health 10%
80
License 10%
100
Description 5%
100

Skill Content

# Gemma 4 12B 本地部署 目标:把 Gemma 4 12B 的 GGUF 版本部署成本机模型服务。默认用 `llama.cpp` / `llama-server` + Apple Metal + `Q4_K_M` + `tmux` 暴露 OpenAI-compatible API;用户明确要 QAT、256K 或对比演示时,切到 `QAT Q4_0` profile;用户明确要 Ollama 时,再走 Ollama 导入路径。 ## 默认选择 - 默认模型仓库:`ggml-org/gemma-4-12B-it-GGUF` - 默认量化:`Q4_K_M` - 默认模型名:`gemma-4-12b-it` - 默认端口:`127.0.0.1:8080` - 默认上下文:`32768` - 12B 长上下文:用户明确要求更大上下文时,可改为 `65536` 或原生最高 `131072` - QAT 仓库:`google/gemma-4-12B-it-qat-q4_0-gguf` - QAT 量化:`Q4_0`,文件名通常是 `gemma-4-12b-it-qat-q4_0.gguf` - QAT 上下文:用户要求 QAT、最大上下文或 256K 时,用 `262144` - 默认后台方式:`tmux` 会话 `gemma4-12b` - 默认关闭 thinking:`--reasoning off`,避免 OpenAI API 的 `message.content` 为空 - Ollama 路径:只在用户明确要 Ollama、需要接 Ollama 生态,或询问 `ollama pull gemma4:12b` 时使用 如果用户明确要更高质量,优先建议 `Q6_K` 或 `Q8_0`;不要默认上 `bf16`,除非用户接受更大内存和更慢加载。QAT 是训练时模拟量化以降低压缩后的质量损失,不等于无损;关键任务仍要做当前会话验证。 ## Profile 选择 先根据用户目标选择 profile。不要把 256K 当作默认值,也不要在用户只要日常本地服务时自动切 QAT。 | Profile | When to choose | Model / quant | Context | Port / alias | |---|---|---|---:|---| | `daily-q4km-32k` | 默认日常聊天、编码、低风险本地 API | `ggml-org/...:Q4_K_M` | `32768` | `8080` / `gemma-4-12b-it` | | `long-q4km-128k` | 用户明确要更长上下文,但仍想保留默认 GGUF 路线 | `ggml-org/...:Q4_K_M` | `65536` or `131072` | `8080` / `gemma-4-12b-it` | | `qat-q4_0-256k` | 用户说 QAT、Q4_0、256K、Google QAT blog、低内存长上下文 | `google/...qat-q4_0-gguf:Q4_0` | `262144` | `8080` / `gemma-4-12b-it-qat-q4_0` | | `compare-32k-vs-256k` | 用户要录屏、演示、A/B 对比资源和速度 | left `Q4_K_M`, right `QAT Q4_0` | `32768` + `262144` | `8080` + `8081` | 选...

Details

Author
majiayu000
Repository
majiayu000/spellbook
Created
6 months ago
Last Updated
today
Language
Python
License
MIT

Integrates with

Similar Skills

Semantically similar based on skill content — not just same category