通过双评审代理对抗式验证,循环收敛后再交付更可靠结果
复制安装指令,让 AI 自动完成配置 · 推荐新手
请帮我安装 askskill 上的 "santa-method" 技能: 1. 下载 https://raw.githubusercontent.com/affaan-m/ECC/main/docs/ja-JP/skills/santa-method/SKILL.md 2. 保存为 ~/.claude/skills/santa-method/SKILL.md 3. 装好后重载技能,告诉我可以用了
请用 Santa Method 审核这份技术方案:先让主代理给出方案,再让两个独立评审代理分别从可行性、风险、遗漏和逻辑一致性角度进行对抗式审查;若任一评审未通过,则迭代修订,直到两者都通过后再输出最终版本。技术方案如下:……
一份经过双重独立审查、附带问题修复痕迹的更稳健技术方案
请使用 Santa Method 检查以下研究结论是否可靠:主代理先总结结论与证据链,两个独立评审代理分别从数据解释偏差、反例、推理漏洞和证据充分性角度审查;未同时通过前持续修正,最后给出可发布版本和剩余不确定性。研究内容:……
一份经过对抗式验证的研究结论摘要,并明确保留风险与不确定性
请用 Santa Method 改写这段将要发布的高风险文案:主代理先输出初稿,两个独立评审代理分别检查事实准确性、歧义、语气风险和受众理解偏差;只要有一方不通过就继续迭代,直到两方都通过,再给出最终文案。原文:……
一版更准确、清晰且风险更低的可发布文案
マルチエージェント敵対的検証フレームワーク。リストを作り、二度確認する。問題があれば、良くなるまで修正する。
核心的な洞察: 自分の出力をレビューする単一のエージェントは、その出力を生み出したのと同じバイアス、知識のギャップ、体系的なエラーを共有しています。共有コンテキストを持たない2人の独立したレビュアーは、この障害モードを解消します。
以下の場合にこのスキルを呼び出します:
内部ドラフト、探索的調査、または確定的な検証がある場合(それらにはビルド/テスト/Lint パイプラインを使用)には使用しないでください。
┌─────────────┐
│ GENERATOR │ フェーズ1: リストを作る
│ (Agent A) │ 成果物を生成する
└──────┬───────┘
│ output
▼
┌──────────────────────────────┐
│ DUAL INDEPENDENT REVIEW │ フェーズ2: 二度確認する
│ │
│ ┌───────────┐ ┌───────────┐ │ 2つのエージェント、同じルーブリック、
│ │ Reviewer B │ │ Reviewer C │ │ 共有コンテキストなし
│ └─────┬─────┘ └─────┬─────┘ │
│ │ │ │
└────────┼──────────────┼────────┘
│ │
▼ ▼
┌──────────────────────────────┐
│ VERDICT GATE │ フェーズ3: 良いか悪いか
│ │
│ B passes AND C passes → NICE │ 両方が合格する必要がある。
│ Otherwise → NAUGHTY │ 例外なし。
└──────┬──────────────┬─────────┘
│ │
NICE NAUGHTY
│ │
▼ ▼
[ SHIP ] ┌─────────────┐
│ FIX CYCLE │ フェーズ4: 良くなるまで修正
│ │
│ iteration++ │ 全フラグを収集する。
│ if i > MAX: │ 全問題を修正する。
│ escalate │ 両レビュアーを再実行する。
│ else: │ 収束するまでループ。
│ goto Ph.2 │
└──────────────┘
主要タスクを実行します。通常の生成ワークフローに変更はありません。Santa Method は生成後の検証レイヤーであり、生成戦略ではありません。
# ジェネレーターは通常通り実行される
output = generate(task_spec)
2つのレビューエージェントを並列で起動します。重要な不変条件:
REVIEWER_PROMPT = """
あなたは独立した品質レビュアーです。この出力に対する他のレビューは見ていません。
## タスク仕様
{task_spec}
## レビュー対象の出力
{output}
## 評価ルーブリック
{rubric}
## 指示
各ルーブリック基準に対して出力を評価してください。それぞれに対して:
- PASS: 基準が完全に満たされ、問題なし
- FAIL: 特定の問題が見つかった(正確な問題を引用)
評価を構造化JSONとして返してください:
{
"verdict": "PASS" | "FAIL",
"checks": [
{"criterion": "...", "result": "PASS|FAIL", "detail": "..."}
],
"critical_issues": ["..."], // 修正が必要なブロッカー
"suggestions": ["..."] // ブロックしない改善提案
}
厳格に評価してください。あなたの仕事は問題を見つけることであり、承認することではありません。
"""
# レビュアーを並列で起動(Claude Code サブエージェント)
review_b = Agent(prompt=REVIEWER_PROMPT.format(...), description="Santa Reviewer B")
review_c = Agent(prompt=REVIEWER_PROMPT.format(...), description="Santa Reviewer C")
# 両方が同時に実行される — 互いに見えない
ルーブリックは最も重要な入力です。曖昧なルーブリックは曖昧なレビューを生みます。すべての基準には客観的な合否条件が必要です。
| 基準 | 合格条件 | 失敗シグナル |
|---|---|---|
| 事実の正確性 | すべての主張がソース資料または常識から検証可能 | 作り上げられた統計、誤ったバージョン番号、存在しないAPI |
| ハルシネーションなし | 作り上げられたエンティティ、引用、URL、参照なし | 存在しないページへのリンク、出典のない引用 |
| 完全性 | 仕様のすべての要件が対応されている | 欠落しているセクション、スキップされたエッジケース、不完全なカバレッジ |
| コンプライアンス | すべてのプロジェクト固有の制約に合格 | 禁止語の使用、トーン違反、規制への非準拠 |
| 内部一貫性 | 出力内に矛盾なし | セクションAがXと言い、セクションBがX以外と言う |
| 技術的正確性 | コードがコンパイル/実行され、アルゴリズムが健全 | 構文エラー、ロジックのバグ、誤った計算量の主張 |
コンテンツ/マーケティング:
コード:
any リークなし、適切なnull処理)コンプライアンスが重要な場合(規制対象、法的、財務的):
def santa_verdict(review_b, review_c):
"""両方のレビュアーが合格する必要がある。部分的な評価なし。"""
if review_b.verdict == "PASS" and review_c.verdict == "PASS":
return "NICE" # 出荷する
# 両方のレビュアーのフラグをマージし、重複を排除
…
通过双评审智能体对结果进行对抗式校验,提升输出发布前的可靠性
为 AI 代理提供实时架构感知反馈,持续改进代码质量与自优化能力。