skill-evaluatorlisted
Install: claude install-skill huajielong/skill-evaluator
# 技能评估器
评估一个技能是否值得安装。两步走:安全门禁 → 类型评分。
## 铁律
1. **安全门禁不通过,不得评分。** 直接否决。
2. **得分 ≤ 50,建议"不安装"。** 除非用户明确说"我知道、我接受"。
3. **不确定技能类型,先问用户。** 不替用户做假设。
## 流程
### 步骤 0:确定技能位置
用户没给路径 → 问文件路径或 .skill 文件位置。
### 步骤 1:安全门禁
使用 `scripts/evaluate.sh --security <path>` 自动扫描。如果 Bash 不可用(如 Claude.ai),逐项手动检查:
| # | 检查项 | 手动方法 |
|:-:|:-------|:---------|
| 1 | 脚本可读 | 打开 scripts/ 下所有文件看是否可读 |
| 2 | 网络外呼 | 全文搜索 curl/wget/fetch 等函数调用 |
| 3 | 凭证采集 | 搜索 api.key/token/secret/password |
| 4 | 远程代码 | 搜索 curl/wget 管道到 bash/sh |
| 5 | 安全绕过 | 搜索"自动批准/关掉权限" |
**输出格式统一:** `✅` 或 `❌` 逐项列出,任意 ❌ 则终止,输出"高风险"。
### 步骤 2:确定技能类型
问用户:
> "这是 **普通技能**(日常用)还是 **元技能**(用来创建/评估其他技能的)?"
用户不确定 → 看描述和目录结构辅助判断。
### 步骤 3:评分
**自动检查优先,主观项问用户。**
每个维度的评分流程:
1. 先运行自动化检查(脚本/行数/grep)
2. 能确定的直接打分
3. 需要主观判断的(如触发精确度),简洁问 1-2 个问题后打分
4. 记录每个维度的得分和理由
**普通技能** → 读 `references/consumer-card.md`(v3.0),5 维度
**元技能** → 读 `references/meta-skill-card.md`(v3.0),6 维度
**重要评分原则:**
1. **来源权重最高** — 官方/可信来源的技能,自动获得可信高分(来源可靠本身就是最大的质量信号)
2. **价值 > 合规** — 不要求"铁律表/验证步骤/Good-Bad示例"等格式;只看实际产出质量
3. **脚本为王** — 有真实可执行脚本的技能价值远高于纯描述技能(实证:有脚本平均高出 19 分)
4. **精炼加分** — ≤150 行的精炼技能获得经济性附加分;短而精确优于长而全
5. **密度决定经济分** — 超过 50% 泛化内容的长技能(>500行)应受到信息密度扣分
### 步骤 4:输出最终报告
```
═══════════════════════════════════════════
技能评估报告
═══════════════════════════════════════════
技能:xxx.skill
类型:普通技能
安全:✅ 通过
┌─ 维度 得分 理由
├ 触发精确度 20/25 描述清晰无负例
├ 执行-完整 12/15 指令有少量缺口
├ 执行-知识 9/12 scripts/ 提供自动化
├ 执行-可靠 6/8 无已知问题
├ 经济性