$ loading_
用于提示词与 RAG 流程评测,支持在 MCP 客户端发起并托管执行评估任务
复制安装指令,让 AI 自动完成配置 · 推荐新手
"Eval_MCP" 暂无可直接复制的安装信息,请查看页面文档或源码仓库。
请使用 Eval_MCP 对两个客服提示词版本做评测,比较它们在准确率、稳定性和回答风格一致性上的表现,并给出推荐版本。
返回评测结果对比、关键指标得分,以及推荐采用的提示词版本。
请使用 Eval_MCP 评估我们的 RAG 问答流程,重点检查检索命中率、答案相关性和幻觉情况,并总结主要问题。
输出 RAG 流程的评测报告,包含检索与生成表现、问题归因和优化建议。
请指导我在 Claude Desktop 或 Cursor 中通过 Eval_MCP 注册、创建 API Key,并批量运行一组提示词评测任务。
给出清晰的操作步骤或调用流程,帮助用户完成配置并启动批量评测。
通过 MCP 为 AI 助手提供可插拔的知识检索与推理能力调用接口
通过 MCP 访问和管理 Langfuse 提示词,提升大模型提示工程效率。
将非结构化文档转为可检索知识库,并通过 MCP 提供检索能力给 AI 代理调用。
将摘要、分类、信息提取和草拟等机械任务委派给本地大模型处理。
通过聊天查询 Google 日历会议与事件,并评估 MCP 相对 RAG 的能力表现。
根据 OpenAPI 规范自动生成 MCP 工具,让模型用自然语言调用各类 API。