← ClaudeAtlas

observabilitylisted

Observability Baseline
pcliangx/AppGenesisForge · ★ 9 · AI & Automation · score 68
Install: claude install-skill pcliangx/AppGenesisForge
# Observability Baseline 团队通用观测基线,覆盖 **应用运行时** 与 **AI agent 自身运行时** 两个维度。各项目具体技术选型由 tech-lead 在项目级 ADR 中固化。 ## 应用运行时 ### 结构化日志(必须) - 后端(FastAPI):用 `structlog` 或 `loguru`,输出 JSON;关键字段:`ts`、`level`、`request_id`、`user_id`(脱敏)、`event`、`latency_ms` - 前端:错误边界 + Sentry SDK;不在控制台打 `console.log`(用 `logger` 抽象) - 严禁日志包含:完整 token / 密码 / 手机号 / 身份证号 / 完整邮箱(参考 `security.md`) ### 链路追踪(推荐) - 接入 OpenTelemetry SDK;后端 → 前端 traceparent 透传 - 慢请求阈值:HTTP 接口 P95 ≤ 500ms(API),LLM 调用 P95 ≤ 5s(流式响应除外) - LLM 调用必须记录:`model`、`prompt_tokens`、`completion_tokens`、`total_cost_cny`、`cache_hit_ratio` ### 指标(推荐) - HTTP���QPS / 错误率 / P50/P95/P99 延迟 - DB:连接池占用、慢查询计数(>200ms) - LLM:调用次数 / 失败率 / 平均 token 消耗 / 日累计成本 ## AI Agent 运行时(Claude Code 自身) ### 内置 `/usage` 查会话 token / cost / cache hit 时跑 Claude Code 内置 `/usage`(不维护项目级 cost log;release retro §3 摘录该输出,见 `agf:running-release-retro` skill)。 自 2.1.149 起 `/usage` 支持**分类成本拆分**:skills / subagents / plugins / **per-MCP-server** 各自的 cost。这是 Agent Team **角色级 / 工具级成本归因**的最快入口——pool 模式下想知道"哪个 MCP、哪类 skill 在烧钱"直接看 `/usage` 分类,不用自建 log。(`/cost` 与 `/stats` 自 2.1.118 已并入 `/usage`。) ### OpenTelemetry 导出(可选启用) `.claude/settings.json` 在 `env` 块预留了占位(前缀 `_OTEL_EXAMPLE_`),生产启用时复制成正式键名: ```jsonc { "env": { "CLAUDE_CODE_ENABLE_TELEMETRY": "1", "OTEL_METRICS_EXPORTER": "otlp", "OTEL_LOGS_EXPORTER": "otlp", "OTEL_EXPORTER_OTLP_ENDPOINT": "http://localhost:4318", "OTEL_EXPORTER_OTLP_PROTOCOL": "http/protobuf", "OTEL_LOG_USER_PROMPTS": "0" } } ``