

新闻资讯
技术学院BenchmarkDotNet 是 C# 并发吞吐量测试最靠谱方案,支持自动预热、多线程压测、GC 控制与延迟分布统计,需用 [ConcurrencyLevel]、[MemoryDiagnoser] 等特性正确配置。
BenchmarkDotNet 测并发吞吐量最靠谱直接上结论:C# 里测并发性能,别手写 Task.Run + Stopwatch,也别用老旧的 Visual Studio Diagnostic Tools 抓毛刺——BenchmarkDotNet 是目前唯一能稳定复现、隔离干扰、自动预热、支持多线程/多进程并发模式的工业级方案。
它底层用 RyuJIT 预热 + 多轮采样 + GC 控制 + 环境校准,避免“第一次跑慢、第二次快”这类常见幻觉。尤其适合测 ConcurrentDictionary、Channel、Parallel.ForEachAsync 这类高并发组件的真实吞吐(如 ops/sec)和延迟分布(P95/P99)。
dotnet add package BenchmarkDotNet
[MemoryDiagnoser] 和 [ConcurrencyLevel(4)] 才能开启并发压力模式public void MethodName(),不能带参数或返回值DateTime.Now —— 这些会污染统计BenchmarkDotNet 并发配置关键参数默认是单线程串行跑,要真正压出并发瓶颈,得显式控制线程数、是否共享状态、是否允许 GC 干扰:
[ConcurrencyLevel(8)]:指定最多 8 个线程并发调用该方法(不是 CPU 核心数,是逻辑并发度)[InvocationCount(1000)]:每个线程执行 1000 次,总调用数 = 线程数 × 次数[DryJob] / [MediumRun]:开发期用 DryJob 快速验证,压测用 MediumRun(约 25 秒)保证数据稳定List),必须加锁或改用 ConcurrentQueue,否则结果不可比lock vs SpinLock vs Interlocked
测并发性能最常踩的坑,是拿错标尺——比如只比单次加锁耗时,却忽略争用率。下面这个例子会真实暴露高争用下三者的差异:
[MemoryDiagnoser]
[ConcurrencyLevel(16)]
public class LockBenchmarks
{
private readonly object _objLock = new();
private readonly SpinLock _spinLock = new();
private int _counter = 0;
[Benchmark]
public void WithLock()
{
lock (_objLock) Interlocked.Increment(ref _counter);
}
[Benchmark]
public void WithSpinLock()
{
bool taken = false;
try
{
_spinLock.Enter(ref taken);
Interlocked.Increment(ref _counter);
}
finally
{
if (taken) _spinLock.Exit();
}
}
[Benchmark]
public void WithInterlocked()
{
Interlocked.Increment(ref _counter);
}}
注意:这里 _counter 是实例字段,每个线程操作的是同一份内存地址,才能触发真实争用。如果误写成局部变量,所有结果都会接近 Interlocked,毫无参考价值。
避开 Stopwatch 手动计时的典型陷阱
有人用 Stopwatch.Start() → Task.WhenAll(...) → Stopwatch.Stop() 测并发,结果偏差极大,原因很实在:
Stopwatch 测的是“任务发起到全部结束”的墙钟时间,不是实际工作耗时(中间大量线程挂起、调度延迟全算进去了)Gen2 就让整轮结果偏移 50ms+BenchmarkDotNet 会自动预热 3 轮以上await 上下文捕获开销,尤其在 UI 线程或 AspNetCore 同步上下文中会放大延迟真要临时测,至少用 Environment.ProcessorCount 控制并发数,并在 Task.Run 内部用 Stopwatch 测单次执行,再取平均——但这仍不如 BenchmarkDotNet 的 Mean + StdDev 统计可靠。
并发性能不是看峰值吞吐,而是看 P99 延迟是否稳定、GC 是
否频繁、CPU 是否打满还卡顿。这些指标 BenchmarkDotNet 默认输出,但容易被忽略——尤其 Allocated 列,一个没注意的闭包捕获,就能让每秒分配几 MB 内存,把吞吐直接砍半。