← ClaudeAtlas

agent-evallisted

【Agent 评估】评估 AI Agent 输出质量。触发时机:用户说"评估 agent"、"测试 agent 质量"、"agent eval"、"检查 agent 输出"时。
afine907/skills · ★ 0 · AI & Automation · score 75
Install: claude install-skill afine907/skills
# Agent Eval — AI Agent 输出质量评估框架 评估 AI Agent 输出质量,适配 LLM 非确定性输出的统计评估方法。 > **核心洞察:** AI Agent 是非确定性的——同一输入可以产生不同但都正确的输出。传统 QA 的"精确匹配"范式不适用,需要转向"行为属性验证 + 统计采样"。 ## Goal 评估 AI Agent 输出质量。覆盖幻觉检测、工具调用准确率、连贯性评分、任务完成验证。支持非确定性输出的统计评估 ## Trigger - 用户说"评估 agent"、"测试 agent 质量"、"agent eval"、"检查 agent 输出" - 构建完 Agent 后需要验证其是否正常工作 - 调试为什么 Agent 产生错误结果 - 对比两个 Agent 配置或提示的效果 ## 工作流程 ``` 定义评估维度 → 构建测试用例 → 执行评估 → 评分输出 → 生成报告 ``` ## Step 1: 定义评估维度 根据 Agent 类型选择适用的评估维度: | 维度 | 定义 | 评分方式 | 适用场景 | |------|------|---------|---------| | **幻觉率** | 输出中包含的事实错误或虚构信息 | 事实核查 + 引用验证 | 知识问答、信息检索 | | **工具准确率** | 选择了正确的工具、传递了正确参数、正确处理了结果 | 工具调用日志比对 | 工具使用 Agent | | **连贯性** | 多步推理中上下文一致、无矛盾、角色稳定 | 一致性检查 + 矛盾检测 | 对话 Agent、长任务 | | **任务完成率** | 目标达成、输出格式正确、边界情况处理 | 结果验证 + 格式检查 | 任务型 Agent | | **安全合规** | 拒绝有害请求、不泄露敏感信息、遵循约束 | 安全测试 + 红队攻击 | 面向用户的 Agent | | **延迟/成本** | 响应时间、Token 消耗、API 调用次数 | 性能指标采集 | 所有 Agent | > 详细评分标准见 [references/eval-dimensions.md](references/eval-dimensions.md) ## Step 2: 构建评估测试用例 ### 测试用例结构 ```json { "id": "eval-001", "name": "正常查询-事实型", "input": "用户的问题或任务描述", "context": "可选:对话历史、系统提示、可用工具列表", "expected_behavior": "预期行为描述(非精确输出)", "scoring_criteria": { "hallucination": "输出中的事实必须可溯源", "tool_accuracy": "应调用 search_api 工具", "coherence": "回答应与上下文一致" }, "pass_threshold": 0.8, "tags": ["happy-path", "factual"] } ``` ### 测试用例矩阵 | 类别 | 覆盖点 | 数量建议 | |------|--------|---------| | **正常路径