$ loading_
使用视觉模型分析图片内容,支持识别文字、物体、场景与差异对比。
复制安装指令,让 AI 自动完成配置 · 推荐新手
"vision-mcp" 暂无可直接复制的安装信息,请查看页面文档或源码仓库。
请分析这张图片,提取其中所有可见文字,并按段落整理输出;如果有表格,请尽量保留原有结构。
返回整理后的 OCR 文本内容,必要时包含表格或分段结构。
请描述这张图片的场景,列出主要物体、它们的位置关系,以及可能的活动或用途。
返回场景描述、关键物体清单及位置关系说明。
请对比这两张图片,说明它们在文字、物体、布局、颜色或细节上的主要差异,并按重要性排序。
返回结构化的差异清单,帮助快速定位两图变化点。
通过零样本目标检测识别并分析图片中的对象与视觉内容。
将截图和图片转成代码、文本与故障诊断结果,提升视觉理解自动化。
使用本地 Ollama 模型进行截图分析、OCR 识别与视觉监控。
让大模型读取图片路径、链接或Base64并生成图像描述。
让无视觉能力的智能体读取图片内容、OCR文字并提取结构化数据。
让 AI 通过视觉模型分析图片、提取文字、比对图像并理解视频内容。