帮助用户礼貌抓取网页并提取链接、表格与结构化内容,支持受限异步爬取
该工具看起来是一个开源的本地 Scrapy 抓取型 MCP 服务,无需密钥,也未声明固定第三方 SaaS 端点。主要风险面来自其固有的本机代码执行与对目标网站发起网络请求;基于现有材料,整体更适合评为需留意而非高风险。
材料明确写明“无”密钥/环境变量,未见要求提供 API token、账号凭证或云服务密钥,因此凭证泄露与滥用面较低。
虽未声明固定远程端点,但该工具的核心功能是抓取网页、读取 sitemap 与 robots.txt,并执行有界异步爬取,因此会向用户指定的网站发起网络请求,存在常规的数据外发与目标站交互面。
系统检查项已标明 executes-code;作为基于 Scrapy 的 MCP 服务,它需要在本机运行抓取逻辑/进程。这属于此类工具的常规能力,材料中未见进一步申请异常系统权限的红旗。
从描述看,该工具会访问远程网页内容并提取链接、表格、CSS/XPath 结果,可能处理用户指定抓取目标返回的数据。材料未说明需要广泛本地文件权限,也未见与声明功能明显不符的数据访问要求。
正面因素是其开源且采用 MIT 许可证,源码可审计;但来源为 third_party_registry,仓库社区采用度为 0 star,维护状态未知,README 缺失,降低了可验证性与成熟度,因此供应链侧建议保持留意。
复制安装指令,让 AI 自动完成配置 · 推荐新手
"scrapy-mcp" 暂无可直接复制的安装信息,请查看页面文档或源码仓库。
抓取这个电商分类页,使用 CSS 选择器提取每个商品的名称、价格、评分和详情页链接,并输出为结构化 JSON。
返回包含商品字段的 JSON 数组,便于后续分析或入库。
读取目标网站的 sitemap.xml 和 robots.txt,总结可抓取区域、禁止抓取路径,并列出 sitemap 中的主要 URL 分类。
输出抓取规则摘要和按类别整理的网址清单。
从博客首页开始,限制最多抓取 50 个页面、深度不超过 2 层,提取每篇文章的标题、发布时间、作者和正文摘要。
返回受限爬取结果及文章信息汇总,避免无限抓取。
帮助用户进行网页抓取、深度爬取与自动信息提取研究