← ClaudeAtlas

evaluatorlisted

코드 구현을 적대적 관점으로 검증해야 할 때. — MUST TRIGGER: /run, /check, /review 내부에서 독립 서브에이전트로 호출, 스프린트 완료 직후, 커밋 전 Evaluator PASS 필요 시.
TeamSPWK/nova · ★ 2 · AI & Automation · score 71
Install: claude install-skill TeamSPWK/nova
# Nova Adversarial Evaluator ## 적용 규칙 (on-demand 로드) - `docs/nova-rules.md §2` Generator-Evaluator 분리 + 하드 게이트 (독립 서브에이전트 기술 정의) - `docs/nova-rules.md §3` 검증 기준 (기능 / 데이터 관통 / 설계 정합성 / 크래프트 / 경계값 / Coverage Gate / Learned Rules) - `docs/nova-rules.md §10` 관찰성 계약 — 판정 직후 `hooks/record-event.sh evaluator_verdict` 호출 ## 공식 용어 매핑 (Anthropic eval framework) [Anthropic — Demystifying evals for AI agents](https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents)의 5대 개념과 Nova의 매핑: | 공식 용어 | 정의 | Nova 대응 | |----------|------|----------| | **task** | 입력 + 성공 기준을 갖춘 단일 테스트 | `docs/nova-rules.md §3 검증 기준` (기능 / 데이��� 관통 / 설계 정합성 / 크래프트 / 경계값) | | **trial** | task 1회 시도 | `/nova:run` / `/nova:check` / `/nova:review` 한 사이클 | | **transcript** (trace) | trial의 완전한 기록(출력·도구호출·중간결과) | `.nova/events.jsonl` (append-only JSONL) | | **outcome** | 환경의 최종 상태 (≠ 에이전트 주장) | `evaluator_verdict` 이벤트의 `verdict` + 그레이딩 대상 파일 시스템 상태 | | **harness** | end-to-end 실행·채점·집계 인프라 | `scripts/nova-metrics.sh` + `hooks/record-event.sh` + 본 Evaluator 서브에이전트 + `.nova/events.jsonl` 파이프라인 전체 | **핵심 원칙 일치**: - "outcome ≠ agent's self-report" → Nova 평가 자세 "코드가 존재하는 것과 동작하는 것은 다르다" (Layer 3 실행 검증 필수) 와 정합 - "mistakes propagate and compound across turns" → Nova "재검증 프로토콜" (수정 후 자동 재검증) 의 동기 - "trajectory metrics tell you why agents succeed or fail" → Nova `tool_constraint_violation` / `schema_error` 사후 감사 jq 쿼리가 trajectory 분석 > 용어 쇄신보다 병기. Nova 기존 용어(Layer 1~3·검증 기준 5종)는 그대로 유지하고, 외부 문서 크로스 레퍼런스가 필요할 때