data-scraper-agent

构建全自动公网数据采集代理，定时抓取、智能丰富并保存到常用数据平台。

星标

★ 209,987

来源

GitHub

更新于

2026-06-08

// 安全评估低风险

仅提示词，不执行代码
开源可审计
社区验证· 210.0k

正在进行安全审计…

凭证密钥
网络外发
代码执行
数据访问
来源供应链

// 安装

复制安装指令，让 AI 自动完成配置 · 推荐新手

请帮我安装 askskill 上的 "data-scraper-agent" 技能：
1. 下载 https://raw.githubusercontent.com/affaan-m/ECC/main/docs/ja-JP/skills/data-scraper-agent/SKILL.md
2. 保存为 ~/.claude/skills/data-scraper-agent/SKILL.md
3. 装好后重载技能，告诉我可以用了

// 下载

下载 SKILL.md机读安装清单 ↗

// 用法示例

监控招聘岗位变化

输入

请帮我设计一个自动化数据采集代理：每天抓取指定招聘网站上的“数据分析师”和“机器学习工程师”岗位，提取职位名称、公司、地点、薪资、发布时间和职位链接；用 LLM 统一标签并判断是否远程；结果保存到 Google Sheets，并按天去重，输出实现方案与提示词。

预期产出

一套岗位监控代理方案，包含抓取字段、定时流程、LLM 丰富规则、去重逻辑及表格存储设计。

追踪竞品价格与促销

输入

帮我创建一个价格追踪数据代理：每6小时抓取 5 个竞品电商页面的商品价格、库存状态、折扣文案和评分；识别价格波动与促销活动，并把清洗后的结果写入 Supabase，另外生成适合周报使用的摘要字段。

预期产出

一个竞品价格监控流程，涵盖页面抓取、变化检测、结构化入库和周报摘要生成规则。

汇总 GitHub 项目动态

输入

请为我搭建一个 GitHub 动态采集代理：每天收集指定开源项目的 star、fork、issue、release 和 commit 信息，用 LLM 生成项目进展摘要与风险提示，保存到 Notion 数据库，并支持根据我的反馈调整摘要风格。

预期产出

一套 GitHub 项目追踪方案，包含数据源字段、每日调度、AI 摘要生成和基于反馈优化的机制。

// 文档

データスクレイパーエージェント

任意のパブリックデータソース用の本番環境対応、AI搭載データ収集エージェントを構築。スケジュールで実行され、無料LLMで結果を豊かにし、データベースに保存し、時間とともに改善されます。

スタック：Python · Gemini Flash（無料） · GitHub Actions（無料） · Notion / Sheets / Supabase

アクティベーション時期

ユーザーが任意のパブリックWebサイトまたはAPIをスクレイプまたは監視したい場合
ユーザーが「チェックするボットを構築」「Xを監視」「データを収集」と言う
ユーザーがジョブ、価格、ニュース、リポ、スポーツスコア、イベント、リストを追跡したい場合
ユーザーがホスティング用に支払わずにデータ収集を自動化する方法を尋ねる
ユーザーが決定に基づいて時間とともによりスマートになるエージェントを望む

コアコンセプト

3つのレイヤー

すべてのデータスクレイパーエージェントには3つのレイヤーがあります：

COLLECT → ENRICH → STORE
  │           │        │
Scraper    AI (LLM)  Database
runs on    scores/   Notion /
schedule   summarises Sheets /
           & classifies Supabase