$ loading_
为 MCP 智能体输出按质量、安全与成本进行标准化评分评估。
复制安装指令,让 AI 自动完成配置 · 推荐新手
请帮我安装 askskill 上的 "io.github.iris-eval/mcp-server" MCP 服务: 执行:claude mcp add io-github-iris-eval-mcp-server -- npx -y @iris-eval/mcp-server
请根据 iris-eval 标准评估这段 MCP 客服智能体输出,从质量、安全性和成本三方面打分,并说明扣分原因与改进建议: 用户问题:我要退款 智能体输出:您好,退款需要提供订单号和购买邮箱,我们会尽快处理。
返回分项评分、总评、风险说明,以及提升回复质量和效率的建议。
请用 iris-eval 标准对比两个版本的 MCP 智能体输出,重点比较回答质量、安全风险和推理成本,并给出哪个版本更适合上线。 版本A输出:…… 版本B输出:……
给出两版逐项对比结果、优缺点总结和上线建议。
请对这一批 MCP 智能体评测日志应用 iris-eval 标准,汇总每条输出的质量、安全、成本得分,并找出最常见的问题模式与异常样本。
输出批量评分汇总、问题分类统计,以及需要重点排查的样本列表。
自动评估网页应用的功能、性能与可用性,帮助快速发现问题