eval-harness
Solid克劳德代码会话的正式评估框架,实施评估驱动开发(EDD)原则
AI & Automation 148,923 stars
23033 forks Updated 1 months ago MIT
Install
Quality Score: 95/100
Stars 20%
Recency 20%
Frontmatter 20%
Documentation 15%
Issue Health 10%
License 10%
Description 5%
Skill Content
# Eval Harness 技能
一个用于 Claude Code 会话的正式评估框架,实现了评估驱动开发 (EDD) 原则。
## 何时激活
* 为 AI 辅助工作流程设置评估驱动开发 (EDD)
* 定义 Claude Code 任务完成的标准(通过/失败)
* 使用 pass@k 指标衡量代理可靠性
* 为提示或代理变更创建回归测试套件
* 跨模型版本对代理性能进行基准测试
## 理念
评估驱动开发将评估视为 "AI 开发的单元测试":
* 在实现 **之前** 定义预期行为
* 在开发过程中持续运行评估
* 跟踪每次更改的回归情况
* 使用 pass@k 指标来衡量可靠性
## 评估类型
### 能力评估
测试 Claude 是否能完成之前无法完成的事情:
```markdown
[能力评估:功能名称]
任务:描述 Claude 应完成的工作
成功标准:
- [ ] 标准 1
- [ ] 标准 2
- [ ] 标准 标准 3
预期输出:对预期结果的描述
```
### 回归评估
确保更改不会破坏现有功能:
```markdown
[回归评估:功能名称]
基线:SHA 或检查点名称
测试:
- 现有测试-1:通过/失败
- 现有测试-2:通过/失败
- 现有测试-3:通过/失败
结果:X/Y 通过(之前为 Y/Y)
```
## 评分器类型
### 1. 基于代码的评分器
使用代码进行确定性检查:
```bash
# Check if file contains expected pattern
grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL"
# Check if tests pass
npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL"
# Check if build succeeds
npm run build && echo "PASS" || echo "FAIL"
```
### 2. 基于模型的评分器
使用 Claude 来评估开放式输出:
```markdown
[MODEL GRADER PROMPT]
评估以下代码变更:
1. 它是否解决了所述问题?
2. 它的结构是否良好?
3. 是否处理了边界情况?
4. 错误处理是否恰当?
评分:1-5 (1=差,5=优秀)
推理:[解释]
```
### 3. 人工评分器
标记为需要手动审查:
```markdown
[HUMAN REVIEW REQUIRED]
变更:对更改内容的描述
原因:为何需要人工审核
风险等级:低/中/高
```
## 指标
### pass@k
"k 次尝试中至少成功一次"
* pass@1:首次尝试成功率
* pass@3:3 次尝试内成功率
* 典型目标:pass@3 > 90%
### pass^k
"所有 k 次试验都���功"
* 更高的可靠性门槛
* pass^3:连续 3 次成功
* 用于关键路径
## 评估工作流程
### 1. 定义(编码前)
```markdown
## 评估定义:功能-xyz
### 能力评估
1. 可以创建新用户账户
2. 可以验证电子邮件格式
3. 可以安全地哈希密码
### 回归评估
1. 现有登录功能仍然有效
...
Details
- Author
- affaan-m
- Repository
- affaan-m/everything-claude-code
- Created
- 4 months ago
- Last Updated
- 1 months ago
- Language
- JavaScript
- License
- MIT
Integrates with
Similar Skills
Semantically similar based on skill content — not just same category
AI & Automation Solid
eval-harness
Formal evaluation framework for Claude Code sessions implementing eval-driven development (EDD) principles
199,470 Updated yesterday
affaan-m AI & Automation Listed
eval-harness
Formal evaluation framework for Claude Code sessions implementing eval-driven development (EDD) principles
0 Updated yesterday
uzysjung AI & Automation Listed
eval-harness
Formal evaluation framework for Claude Code sessions implementing eval-driven development (EDD) principles
4 Updated today
immacualate AI & Automation Solid
eval-harness
Formal evaluation framework for Claude Code sessions implementing eval-driven development (EDD) principles
54 Updated today
arabicapp AI & Automation Solid
verification-loop
Claude Code 会话的全面验证系统。
148,923 Updated 1 months ago
affaan-m