$ ~/registry/mcp/cpramod-vision-mcp

MCP

vision-mcp

使用视觉模型分析图片内容，支持识别文字、物体、场景与差异对比。

来源

third_party_registry

更新于

2026-06-22

// 安全评估需留意

本机运行进程
开源可审计

正在进行安全审计…

凭证密钥
网络外发
代码执行
数据访问
来源供应链

// 安装

复制安装指令，让 AI 自动完成配置 · 推荐新手

"vision-mcp" 暂无可直接复制的安装信息，请查看页面文档或源码仓库。

// 用法示例

提取图片中的文字

输入

请分析这张图片，提取其中所有可见文字，并按段落整理输出；如果有表格，请尽量保留原有结构。

预期产出

返回整理后的 OCR 文本内容，必要时包含表格或分段结构。

识别场景与物体

输入

请描述这张图片的场景，列出主要物体、它们的位置关系，以及可能的活动或用途。

预期产出

返回场景描述、关键物体清单及位置关系说明。

对比两张图片差异

输入

请对比这两张图片，说明它们在文字、物体、布局、颜色或细节上的主要差异，并按重要性排序。

预期产出

返回结构化的差异清单，帮助快速定位两图变化点。

// 文档

该资产暂无文档说明

可前往源码仓库查看用法与示例。

前往源码仓库 ↗

// 功能相似

MCP 工具

mcp-vision

通过零样本目标检测识别并分析图片中的对象与视觉内容。

—装→

MCP 工具

Vison-MCP

将截图和图片转成代码、文本与故障诊断结果，提升视觉理解自动化。

—装→

MCP 工具

vision-mcp

使用本地 Ollama 模型进行截图分析、OCR 识别与视觉监控。

—装→

MCP 工具

llm-vision-mcp

让大模型读取图片路径、链接或Base64并生成图像描述。

—装→

MCP 工具

read-image-mcp

让无视觉能力的智能体读取图片内容、OCR文字并提取结构化数据。

—装→

MCP 工具

Vision MCP Server

让 AI 通过视觉模型分析图片、提取文字、比对图像并理解视频内容。

—装→

$ loading_