$ loading_
帮助团队在 AI 开发过程中实时评估模型回复质量与行为表现
复制安装指令,让 AI 自动完成配置 · 推荐新手
"AI Evaluator MCP Server" 暂无可直接复制的安装信息,请查看页面文档或源码仓库。
请用 AI Evaluator MCP Server 对比两个客服提示词版本的回答质量,从准确性、语气一致性、拒答合理性和安全性四个维度打分,并输出差异分析与改进建议。
一份包含多维评分、版本对比结论、问题样例和优化建议的评估结果。
请基于行为测试模式,为这个 AI 助手设计一组评估任务,重点检测在不同措辞、长上下文和边界问题下的稳定性,并汇总潜在风险。
一套结构化测试任务,以及关于稳定性、失效模式和风险点的总结。
请说明如何把 AI Evaluator MCP Server 接入我的 AI 开发流程,在每次模型或提示词更新后自动运行评测,并生成可追踪的质量报告。
一份接入方案,包含流程步骤、自动化触发方式和评测报告设计建议。
自动评估网页应用的功能、性能与可用性,帮助快速发现问题