用生成器与评估器协同流程,自动迭代构建高质量应用原型与代码。
复制安装指令,让 AI 自动完成配置 · 推荐新手
请帮我安装 askskill 上的 "gan-style-harness" 技能: 1. 下载 https://raw.githubusercontent.com/affaan-m/ECC/main/skills/gan-style-harness/SKILL.md 2. 保存为 ~/.claude/skills/gan-style-harness/SKILL.md 3. 装好后重载技能,告诉我可以用了
请使用生成器-评估器协同方式,为一个团队任务管理 Web 应用生成开发方案。先输出功能需求、技术栈、系统架构,再生成前后端代码骨架,并在每轮后自我评估可用性、可维护性与风险,迭代 3 轮后给出最终版本。
一套经过多轮评估优化的应用方案,包含需求、架构、代码骨架与改进说明。
下面是一段正在开发的 Node.js API 代码。请把它当作生成器初稿,随后切换到评估器角色,从正确性、异常处理、性能、安全性和可测试性五个维度打分并指出问题,再返回生成器角色完成修复,重复两轮并输出最终代码与评估结果。
改进后的高质量代码,以及分轮次的评估意见与修复记录。
请为一个 AI 初创团队设计基于 generator-evaluator harness 的自治开发流程,用于持续交付新功能。需要定义角色分工、输入输出格式、质量门禁、失败回滚机制和人工介入节点,并给出一个可执行的流程模板。
一份可落地的自治开发流程设计,便于团队建立标准化迭代机制。
Inspired by Anthropic's Harness Design for Long-Running Application Development (March 24, 2026)
A multi-agent harness that separates generation from evaluation, creating an adversarial feedback loop that drives quality far beyond what a single agent can achieve.
When asked to evaluate their own work, agents are pathological optimists — they praise mediocre output and talk themselves out of legitimate issues. But engineering a separate evaluator to be ruthlessly strict is far more tractable than teaching a generator to self-critique.
This is the same dynamic as GANs (Generative Adversarial Networks): the Generator produces, the Evaluator critiques, and that feedback drives the next iteration.
claude -p) ┌─────────────┐
│ PLANNER │
│ (Opus 4.6) │
└──────┬──────┘
│ Product Spec
│ (features, sprints, design direction)
▼
┌────────────────────────┐
│ │
│ GENERATOR-EVALUATOR │
│ FEEDBACK LOOP │
│ │
│ ┌──────────┐ │
│ │GENERATOR │--build-->│──┐
│ │(Opus 4.6)│ │ │
│ └────▲─────┘ │ │
│ │ │ │ live app
│ feedback │ │
│ │ │ │
│ ┌────┴─────┐ │ │
│ │EVALUATOR │<-test----│──┘
│ │(Opus 4.6)│ │
│ │+Playwright│ │
│ └──────────┘ │
│ │
│ 5-15 iterations │
└────────────────────────┘
Role: Product manager — expands a brief prompt into a full product specification.
Key behaviors:
Model: Opus 4.6 (needs deep reasoning for spec expansion)
Role: Developer — implements features according to the spec.
Key behaviors:
Model: Opus 4.6 (needs strong coding capability)
Role: QA engineer — tests the live running application, not just code.
Key behaviors:
…
帮助开发者使用 Bun 进行运行、打包、测试与依赖管理,并评估替代 Node 的时机。
连接浏览器与服务端运行时,支持实时调试、监控并自动修复问题。