benchmark

用于测量性能基线、发现PR回归并比较不同技术栈方案。

星标

★ 209,790

来源

GitHub

更新于

2026-06-07

// 安全评估低风险

仅提示词，不执行代码
开源可审计
社区验证· 209.8k

正在进行安全审计…

凭证密钥
网络外发
代码执行
数据访问
来源供应链

// 安装

复制安装指令，让 AI 自动完成配置 · 推荐新手

请帮我安装 askskill 上的 "benchmark" 技能：
1. 下载 https://raw.githubusercontent.com/affaan-m/ECC/main/docs/zh-CN/skills/benchmark/SKILL.md
2. 保存为 ~/.claude/skills/benchmark/SKILL.md
3. 装好后重载技能，告诉我可以用了

// 下载

下载 SKILL.md机读安装清单 ↗

// 用法示例

检测PR性能回归

输入

请帮我为这个项目设计一套性能基准测试方案，用于比较某个 PR 合并前后的响应时间、吞吐量和内存占用。请给出测试步骤、关键指标、结果记录模板，以及如何判断是否存在性能回归。

预期产出

一套可执行的性能基准测试方案，包含指标定义、对比方法和回归判断标准。

建立性能基线

输入

我想为当前系统建立性能基线，请列出需要采集的核心指标、推荐的测试场景，以及如何整理成后续版本可持续对比的基线报告。

预期产出

一份性能基线建立指南，帮助团队后续持续跟踪系统表现变化。

比较技术栈方案

输入

请帮我设计一个基准测试，用来比较两种技术栈在相同负载下的性能差异。请说明如何保证测试公平，并输出适合决策汇报的结果结构。

预期产出

一套公平的对比测试设计，以及便于汇报和选型决策的结果模板。

// 文档

基准测试 — 性能基线及回归检测

使用场景

在 PR 前后测量性能影响
为项目建立性能基线
用户反馈"感觉变慢"时
发布前确保达到性能目标
对比不同技术栈的性能表现

工作原理

模式 1：页面性能

通过浏览器 MCP 测量真实浏览器指标：

1. 导航至每个目标 URL
2. 测量核心网页指标：
   - LCP（最大内容绘制）— 目标 < 2.5 秒
   - CLS（累积布局偏移）— 目标 < 0.1
   - INP（与下一次绘制的交互）— 目标 < 200 毫秒
   - FCP（首次内容绘制）— 目标 < 1.8 秒
   - TTFB（首字节时间）— 目标 < 800 毫秒
3. 测量资源大小：
   - 页面总重量（目标 < 1MB）
   - JS 包大小（目标 < 200KB gzip 压缩后）
   - CSS 大小
   - 图片重量
   - 第三方脚本重量
4. 统计网络请求数量
5. 检查阻塞渲染的资源

模式 2：API 性能

对 API 端点进行基准测试：

1. 每个端点请求 100 次
2. 测量：p50、p95、p99 延迟
3. 追踪：响应大小、状态码
4. 负载测试：10 个并发请求
5. 与 SLA 目标进行对比

模式 3：构建性能

测量开发反馈循环效率：

1. 冷构建时间
2. 热重载时间 (HMR)
3. 测试套件执行时间
4. TypeScript 检查时间
5. 代码检查时间
6. Docker 构建时间

模式 4：前后对比

在变更前后运行以测量影响：

/benchmark baseline    # 保存当前指标
# ... 进行更改 ...
/benchmark compare     # 与基线进行比较

输出结果：

| Metric | Before | After | Delta | Verdict |
|--------|--------|-------|-------|---------|
| LCP | 1.2s | 1.4s | +200ms | WARNING: WARN |
| Bundle | 180KB | 175KB | -5KB | ✓ BETTER |
| Build | 12s | 14s | +2s | WARNING: WARN |