AI Evaluator MCP Server

帮助团队在 AI 开发过程中实时评估模型回复质量与行为表现

来源

third_party_registry

更新于

2026-06-21

// 安全评估需留意

正在进行安全审计…

// 安装

复制安装指令，让 AI 自动完成配置 · 推荐新手

"AI Evaluator MCP Server" 暂无可直接复制的安装信息，请查看页面文档或源码仓库。

// 用法示例

评估提示词版本效果

输入

请用 AI Evaluator MCP Server 对比两个客服提示词版本的回答质量，从准确性、语气一致性、拒答合理性和安全性四个维度打分，并输出差异分析与改进建议。

预期产出

一份包含多维评分、版本对比结论、问题样例和优化建议的评估结果。

检测模型行为稳定性

输入

请基于行为测试模式，为这个 AI 助手设计一组评估任务，重点检测在不同措辞、长上下文和边界问题下的稳定性，并汇总潜在风险。

预期产出

一套结构化测试任务，以及关于稳定性、失效模式和风险点的总结。

接入开发流程做实时评测

输入

请说明如何把 AI Evaluator MCP Server 接入我的 AI 开发流程，在每次模型或提示词更新后自动运行评测，并生成可追踪的质量报告。

预期产出

一份接入方案，包含流程步骤、自动化触发方式和评测报告设计建议。

该资产暂无文档说明

可前往源码仓库查看用法与示例。

通过标准化 MCP 接口运行大模型评测、实验与自定义评估器。

用于提示词与 RAG 流程评测，支持在 MCP 客户端发起并托管执行评估任务