io.github.iris-eval/mcp-server

为 MCP 智能体输出按质量、安全与成本进行标准化评分评估。

来源

官方 Registry

更新于

2026-06-12

// 安全评估需留意

正在进行安全审计…

// 安装

复制安装指令，让 AI 自动完成配置 · 推荐新手

请帮我安装 askskill 上的 "io.github.iris-eval/mcp-server" MCP 服务：
执行：claude mcp add io-github-iris-eval-mcp-server -- npx -y @iris-eval/mcp-server

// 用法示例

评估客服智能体回复

输入

请根据 iris-eval 标准评估这段 MCP 客服智能体输出，从质量、安全性和成本三方面打分，并说明扣分原因与改进建议：
用户问题：我要退款
智能体输出：您好，退款需要提供订单号和购买邮箱，我们会尽快处理。

预期产出

返回分项评分、总评、风险说明，以及提升回复质量和效率的建议。

比较两个智能体版本表现

输入

请用 iris-eval 标准对比两个版本的 MCP 智能体输出，重点比较回答质量、安全风险和推理成本，并给出哪个版本更适合上线。
版本A输出：……
版本B输出：……

预期产出

给出两版逐项对比结果、优缺点总结和上线建议。

批量审查评测日志

输入

请对这一批 MCP 智能体评测日志应用 iris-eval 标准，汇总每条输出的质量、安全、成本得分，并找出最常见的问题模式与异常样本。

预期产出

输出批量评分汇总、问题分类统计，以及需要重点排查的样本列表。

该资产暂无文档说明

可前往源码仓库查看用法与示例。

用于提示词与 RAG 流程评测，支持在 MCP 客户端发起并托管执行评估任务

帮助团队检测 API 是否适配 AI 代理，并输出评分、等级与改进建议。