lab-cluster-1-web-portallisted
Install: claude install-skill black-yt/skills
# Lab Cluster 1 Web Portal
## 文件导航
| 序号 | 文件内容概览 | 关键词 | 触发时机 | 文件路径 |
| --- | --- | --- | --- | --- |
| 1 | 说明访问 `https://h.pjlab.org.cn/` 时如何选择执行位置、如何用浏览器式 OIDC authorization code flow 登录、如何保存和刷新 token、如何保护账号密码和 cookie/token 文件,并列出 discovery/auth/token/callback 等 h.pjlab.org.cn 具体 endpoint。 | h.pjlab.org.cn、PJLAB、lab-cluster-1、OIDC、authorization code、`/kapi/auth/.well-known/openid-configuration?tenant=ailab`、`/kapi/auth/auth`、`/kapi/auth/token`、`/oidc-callback`、client_id kubebrain、cookie jar、session、hpjlab_login.json、hpjlab_oidc_token.json、chmod 600、secret safety、urllib、requests | 需要登录 `https://h.pjlab.org.cn/` 前;需要自动化获取 access token 或 refresh token 前;本地 WSL 网络不可达但开发机/CPU worker 可访问时;排查 `unauthorized_client`、登录跳转失败、token 过期、cookie 丢失或凭据泄漏风险时必须读取 | [references/login-oidc-session.md](references/login-oidc-session.md) |
| 2 | 说明登录 `h.pjlab.org.cn` 后如何只读查询 `/kapi/prom.monitoring.kubebrain.io/api/v1/query`,如何查询 DCGM GPU 利用率/显存/功率/温度,如何用 exported_pod/replica/namespace 把监控数据映射到 rjob 任务,并如何把任务层、监控层和通知层分开合并成报告。 | h.pjlab.org.cn、`/kapi/prom.monitoring.kubebrain.io/api/v1/query`、Prometheus、PromQL、DCGM、DCGM_FI_DEV_GPU_UTIL、DCGM_FI_DEV_FB_USED、DCGM_FI_DEV_FB_FREE、DCGM_FI_DEV_POWER_USAGE、DCGM_FI_DEV_GPU_TEMP、Hostname、exported_namespace、exported_pod、replica、rjob、scieval_gpu、other occupancy、report merge | 需要从 `h.pjlab.org.cn` 获取 GPU 利用率/显存/功率/温度前;需要把网页监控数据和 rjob 信息合并前;排查 PromQL 422、label 不匹配、pod 无法归因、监控数据缺失或报告口径混乱时必须读取 | [references/monitoring-api-and-reporting.md](references/monitoring-