← ClaudeAtlas

lab-cluster-1-web-portallisted

当需要访问、登录、自动化查询或排查 lab-cluster-1 的 h.pjlab.org.cn 集群管理网站时使用;覆盖浏览器/OIDC 登录、h.pjlab.org.cn/kapi/auth endpoint、凭据和 token 安全、会话刷新、Prometheus/DCGM 监控查询、pod/rjob 映射和报告数据分层。
black-yt/skills · ★ 2 · AI & Automation · score 63
Install: claude install-skill black-yt/skills
# Lab Cluster 1 Web Portal ## 文件导航 | 序号 | 文件内容概览 | 关键词 | 触发时机 | 文件路径 | | --- | --- | --- | --- | --- | | 1 | 说明访问 `https://h.pjlab.org.cn/` 时如何选择执行位置、如何用浏览器式 OIDC authorization code flow 登录、如何保存和刷新 token、如何保护账号密码和 cookie/token 文件,并列出 discovery/auth/token/callback 等 h.pjlab.org.cn 具体 endpoint。 | h.pjlab.org.cn、PJLAB、lab-cluster-1、OIDC、authorization code、`/kapi/auth/.well-known/openid-configuration?tenant=ailab`、`/kapi/auth/auth`、`/kapi/auth/token`、`/oidc-callback`、client_id kubebrain、cookie jar、session、hpjlab_login.json、hpjlab_oidc_token.json、chmod 600、secret safety、urllib、requests | 需要登录 `https://h.pjlab.org.cn/` 前;需要自动化获取 access token 或 refresh token 前;本地 WSL 网络不可达但开发机/CPU worker 可访问时;排查 `unauthorized_client`、登录跳转失败、token 过期、cookie 丢失或凭据泄漏风险时必须读取 | [references/login-oidc-session.md](references/login-oidc-session.md) | | 2 | 说明登录 `h.pjlab.org.cn` 后如何只读查询 `/kapi/prom.monitoring.kubebrain.io/api/v1/query`,如何查询 DCGM GPU 利用率/显存/功率/温度,如何用 exported_pod/replica/namespace 把监控数据映射到 rjob 任务,并如何把任务层、监控层和通知层分开合并成报告。 | h.pjlab.org.cn、`/kapi/prom.monitoring.kubebrain.io/api/v1/query`、Prometheus、PromQL、DCGM、DCGM_FI_DEV_GPU_UTIL、DCGM_FI_DEV_FB_USED、DCGM_FI_DEV_FB_FREE、DCGM_FI_DEV_POWER_USAGE、DCGM_FI_DEV_GPU_TEMP、Hostname、exported_namespace、exported_pod、replica、rjob、scieval_gpu、other occupancy、report merge | 需要从 `h.pjlab.org.cn` 获取 GPU 利用率/显存/功率/温度前;需要把网页监控数据和 rjob 信息合并前;排查 PromQL 422、label 不匹配、pod 无法归因、监控数据缺失或报告口径混乱时必须读取 | [references/monitoring-api-and-reporting.md](references/monitoring-