前言:Web服务器性能,1秒决定营收

根据Google的研究,当移动网页加载时间从1秒增加到3秒时,跳出率会上升32%。如果延长到5秒,跳出率将高达90%。Amazon发布的数据显示,页面加载每慢100ms,销售额就会下降1%;Walmart报告称,页面速度提升1秒,转化率提高了2%。

Web服务器性能调优是能够创造此类业务影响的最具成本效益的工作之一。与其多加一台服务器,不如优化现有服务器的配置,这样既便宜又能立即见效。实际上,默认配置的Nginx与经过良好调优的Nginx在相同硬件上表现出5~10倍性能差距的情况并不少见。

本指南将系统地介绍将Nginx Web服务器性能发挥到极致的所有调优技术。从Worker进程设置、内核参数、TLS优化、HTTP/2·HTTP/3、压缩、缓存,到基准测试,提供可在实际工作中直接应用的具体配置和数值。

1. 性能测量与现状把握

1.1 调优前必须先测量

调优的第一原则是"没有测量就没有改进"。在没有准确测量当前性能的情况下就开始修改配置是错误的做法。只有能够比较调优前后的数值,才能判断效果。

1.2 基准测试工具

# === ab (Apache Benchmark) - 最简单 ===
# 10,000 请求,100 并发连接
ab -n 10000 -c 100 https://example.com/

# 启用 keep-alive (更接近真实场景)
ab -n 10000 -c 100 -k https://example.com/

# POST 请求测试
ab -n 1000 -c 10 -p data.json -T application/json https://example.com/api/


# === wrk - 更强大的压力测试 ===
sudo apt install wrk -y

# 30秒期间 10 线程, 100 连接
wrk -t10 -c100 -d30s https://example.com/

# 详细延迟分布
wrk -t10 -c100 -d30s --latency https://example.com/

# 用脚本实现复杂场景
wrk -t10 -c100 -d30s -s script.lua https://example.com/


# === hey - 用 Go 编写的现代工具 ===
go install github.com/rakyll/hey@latest

hey -n 10000 -c 100 https://example.com/


# === vegeta - 持续压力测试 ===
echo "GET https://example.com/" | \
  vegeta attack -rate=500 -duration=60s | \
  vegeta report

1.3 核心性能指标(KPI)

指标 说明 目标值
RPS(Requests/sec) 每秒处理请求数 因硬件而异,越高越好
Latency p50 请求响应时间中位数 < 100ms
Latency p99 99%ile 响应时间(长尾延迟) < 500ms
Error Rate 失败请求比例 < 0.1%
CPU 使用率 每进程 CPU 使用率 平均 60~70%
内存使用率 每个 worker 的内存使用量 应保持稳定且一致

1.4 系统资源实时监控

# 综合资源
htop
btop    # 更现代化的界面

# CPU 详情
mpstat -P ALL 1

# 磁盘 I/O
iostat -xz 1
iotop

# 网络
iftop
nethogs
ss -s    # 套接字统计

# Nginx stub_status
curl http://localhost:8080/nginx_status
# Active connections: 291
# server accepts handled requests
#  16630948 16630948 31070465
# Reading: 6 Writing: 179 Waiting: 106

2. Worker 进程与连接调优

2.1 worker_processes 设置

Worker 进程是实际处理请求的 Nginx 核心。通常将其设置为与 CPU 核心数相同

# /etc/nginx/nginx.conf (全局上下文)

# 最推荐:自动检测
worker_processes auto;

# 或者显式指定 CPU 核心数
# worker_processes 8;    # 8核 CPU 的情况

# 将 worker 绑定到 CPU 核心 (CPU affinity)
# 减少上下文切换,提升缓存局部性
worker_cpu_affinity auto;

# 显式指定 (8核示例)
# worker_cpu_affinity 00000001 00000010 00000100 00001000 00010000 00100000 01000000 10000000;

2.2 worker_connections 设置

每个 worker 进程可以同时处理的最大连接数。该值决定了 Nginx 整体的并发处理能力

events {
    # 每个 worker 的最大连接数
    worker_connections 65535;

    # 事件处理方式 (Linux 下 epoll 最优)
    use epoll;

    # 一次性接受多个连接
    multi_accept on;

    # accept 互斥 (worker 间负载均衡)
    # 高负载环境下建议 off (Nginx 1.11.3+)
    accept_mutex off;
}

理论最大并发连接数 = worker_processes × worker_connections

例如:8核 × 65535 = 可处理 524,280 个并发连接

注意:若要将 worker_connections 设置得较高,必须同时提高操作系统的文件描述符限制。否则会出现 Too many open files 错误。

2.3 提高文件描述符限制

# === 系统全局限制 ===
# /etc/sysctl.conf
sudo tee -a /etc/sysctl.conf << 'EOF'
fs.file-max = 2097152
fs.nr_open = 2097152
EOF

sudo sysctl -p

# === 用户级限制 (/etc/security/limits.conf) ===
sudo tee -a /etc/security/limits.conf << 'EOF'
nginx soft nofile 65535
nginx hard nofile 65535
* soft nofile 65535
* hard nofile 65535
EOF

# === systemd 服务限制 ===
sudo mkdir -p /etc/systemd/system/nginx.service.d
sudo tee /etc/systemd/system/nginx.service.d/override.conf << 'EOF'
[Service]
LimitNOFILE=65535
EOF

sudo systemctl daemon-reload
sudo systemctl restart nginx
# 在 Nginx 全局上下文中也显式指定
worker_rlimit_nofile 65535;

2.4 连接优化验证

# 查看当前 Nginx worker 打开的文件数
for pid in $(pgrep -f "nginx: worker"); do
    echo "PID $pid: $(ls /proc/$pid/fd | wc -l) open files"
done

# 查看当前设定的限制
cat /proc/$(pgrep -f "nginx: master")/limits | grep "Max open files"

3. 内核参数调优 (sysctl)

仅仅调整 Nginx 配置是有局限性的。只有与操作系统内核层面的调优相配合,才能获得真正的性能提升。

3.1 推荐的内核参数

# /etc/sysctl.d/99-nginx-tuning.conf
sudo tee /etc/sysctl.d/99-nginx-tuning.conf << 'EOF'

# === 文件描述符 ===
fs.file-max = 2097152
fs.nr_open = 2097152

# === TCP 连接队列大小 ===
# 等待中的 TCP 连接 (SYN_RECV 状态)
net.ipv4.tcp_max_syn_backlog = 65535
# accept() 等待队列
net.core.somaxconn = 65535
# 网络设备 backlog
net.core.netdev_max_backlog = 16384

# === TCP TIME_WAIT 优化 ===
# TIME_WAIT 套接字复用
net.ipv4.tcp_tw_reuse = 1
# TIME_WAIT 最大数量
net.ipv4.tcp_max_tw_buckets = 1440000
# FIN_WAIT 时间
net.ipv4.tcp_fin_timeout = 15
# keep-alive 时间
net.ipv4.tcp_keepalive_time = 600
net.ipv4.tcp_keepalive_intvl = 60
net.ipv4.tcp_keepalive_probes = 3

# === 扩展本地端口范围 ===
net.ipv4.ip_local_port_range = 1024 65535

# === TCP 缓冲区大小 ===
# 接收缓冲区 (最小, 默认, 最大)
net.ipv4.tcp_rmem = 4096 87380 16777216
# 发送缓冲区
net.ipv4.tcp_wmem = 4096 65536 16777216
# TCP 总内存
net.ipv4.tcp_mem = 786432 1048576 26777216

# === 套接字缓冲区 ===
net.core.rmem_max = 16777216
net.core.wmem_max = 16777216
net.core.rmem_default = 262144
net.core.wmem_default = 262144

# === TCP 拥塞控制 ===
# 启用 BBR (Linux 4.9+) - 在高带宽网络下表现优异
net.core.default_qdisc = fq
net.ipv4.tcp_congestion_control = bbr

# === TCP Fast Open (快速连接复用) ===
net.ipv4.tcp_fastopen = 3

# === SYN Flood 防御 ===
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_synack_retries = 2

# === IPv6 (如需) ===
net.ipv6.ip_local_port_range = 1024 65535

EOF

# 应用
sudo sysctl -p /etc/sysctl.d/99-nginx-tuning.conf

3.2 BBR 拥塞控制启用确认

# 检查 BBR 支持
sudo sysctl net.ipv4.tcp_congestion_control

# 可用的拥塞控制算法
sudo sysctl net.ipv4.tcp_available_congestion_control

# 加载 BBR 模块 (如需)
sudo modprobe tcp_bbr
echo "tcp_bbr" | sudo tee /etc/modules-load.d/bbr.conf
BBR 的效果:由 Google 开发的 BBR(Bottleneck Bandwidth and RTT)相较于传统 CUBIC 算法,尤其在长距离网络和高带宽环境下表现卓越。YouTube 和 Google Cloud 报告称,通过 BBR 将吞吐量提升了多达 2700 倍。

4. HTTP 协议优化

4.1 启用 HTTP/2

HTTP/2 可通过单一连接同时处理多个请求(多路复用),相比 HTTP/1.1 提供划时代的性能提升:

server {
    # 添加 http2 选项
    listen 443 ssl http2;
    listen [::]:443 ssl http2;

    server_name example.com;

    ssl_certificate /etc/letsencrypt/live/example.com/fullchain.pem;
    ssl_certificate_key /etc/letsencrypt/live/example.com/privkey.pem;

    # HTTP/2 性能调优
    http2_max_concurrent_streams 128;
    http2_recv_buffer_size 256k;

    # ...
}

4.2 启用 HTTP/3 (QUIC)

HTTP/3 使用基于 UDP 的 QUIC 协议,相比 HTTP/2 提供更快的连接建立和丢包恢复能力。Nginx 自 1.25.0 起正式支持:

server {
    # HTTP/2 (TCP 443)
    listen 443 ssl;
    http2 on;

    # HTTP/3 (UDP 443)
    listen 443 quic reuseport;
    listen [::]:443 quic reuseport;
    http3 on;

    # 通告 HTTP/3 支持
    add_header Alt-Svc 'h3=":443"; ma=86400';

    ssl_certificate /etc/letsencrypt/live/example.com/fullchain.pem;
    ssl_certificate_key /etc/letsencrypt/live/example.com/privkey.pem;

    # QUIC 优化
    ssl_early_data on;    # 支持 0-RTT

    server_name example.com;
    # ...
}
# 放行 UDP 443 端口 (HTTP/3)
sudo ufw allow 443/udp
sudo firewall-cmd --add-port=443/udp --permanent
sudo firewall-cmd --reload

5. TLS/SSL 性能优化

HTTPS 已成为必需,但 TLS 握手会产生相当的开销。通过适当的优化可以将这部分成本降到最低。

server {
    listen 443 ssl http2;
    server_name example.com;

    ssl_certificate /etc/letsencrypt/live/example.com/fullchain.pem;
    ssl_certificate_key /etc/letsencrypt/live/example.com/privkey.pem;

    # === 协议 (移除旧版本) ===
    ssl_protocols TLSv1.2 TLSv1.3;

    # === 加密套件 ===
    # TLS 1.3 会自动优化
    # TLS 1.2 优先使用现代加密算法
    ssl_ciphers ECDHE-ECDSA-AES128-GCM-SHA256:ECDHE-RSA-AES128-GCM-SHA256:ECDHE-ECDSA-AES256-GCM-SHA384:ECDHE-RSA-AES256-GCM-SHA384:ECDHE-ECDSA-CHACHA20-POLY1305:ECDHE-RSA-CHACHA20-POLY1305;
    ssl_prefer_server_ciphers off;    # TLS 1.3 下建议 off

    # === SSL 会话缓存 (握手复用) ===
    ssl_session_cache shared:SSL:50m;    # 50MB ≈ 约 20 万会话
    ssl_session_timeout 1d;              # 1 天
    ssl_session_tickets off;             # 出于安全考虑 off

    # === OCSP Stapling ===
    # 由服务器代为完成证书有效性检查 (节省客户端 1-RTT)
    ssl_stapling on;
    ssl_stapling_verify on;
    ssl_trusted_certificate /etc/letsencrypt/live/example.com/chain.pem;
    resolver 1.1.1.1 8.8.8.8 valid=300s;
    resolver_timeout 5s;

    # === TLS 1.3 early data (0-RTT) ===
    ssl_early_data on;
    # early data 下仅允许幂等请求,应用层需自行检查
    proxy_set_header Early-Data $ssl_early_data;
}
建议使用 ECDSA 证书:用 ECDSA(椭圆曲线)证书代替 RSA,握手会快得多,CPU 使用率也会降低。可在 Let's Encrypt 通过 --key-type ecdsa 选项申请。

6. 压缩优化 (Gzip/Brotli)

6.1 Gzip 压缩

http {
    gzip on;

    # 压缩级别 (1-9)
    # 6 的 CPU 成本与效果平衡最佳
    gzip_comp_level 6;

    # 最小压缩大小 (太小的文件反而效率低)
    gzip_min_length 1024;

    # 通过代理的请求也进行压缩
    gzip_proxied any;

    # 根据 User-Agent 添加 Vary 头
    gzip_vary on;

    # 支持的 MIME 类型
    gzip_types
        text/plain
        text/css
        text/xml
        text/javascript
        application/javascript
        application/x-javascript
        application/json
        application/xml
        application/xml+rss
        application/atom+xml
        application/rss+xml
        application/ld+json
        application/manifest+json
        image/svg+xml
        image/x-icon
        font/ttf
        font/otf
        font/woff
        font/woff2;

    # 缓冲区大小
    gzip_buffers 16 8k;
    gzip_http_version 1.1;

    # 排除已压缩的文件
    gzip_disable "msie6";
}

6.2 Brotli 压缩 (比 Gzip 更高效)

Brotli 是 Google 开发的最新压缩算法,在同等质量下相比 Gzip 提供小 15~25%的体积。Nginx 未默认包含该模块,需要单独安装:

# Ubuntu/Debian - 安装 Nginx + Brotli 模块
sudo apt install libnginx-mod-http-brotli-filter libnginx-mod-http-brotli-static -y

# RHEL/CentOS
sudo dnf install nginx-module-brotli -y

# 确认模块加载 (Ubuntu 一般自动)
ls /etc/nginx/modules-enabled/ | grep brotli
# nginx.conf 全局上下文 (如需)
load_module modules/ngx_http_brotli_filter_module.so;
load_module modules/ngx_http_brotli_static_module.so;

http {
    # Brotli 动态压缩
    brotli on;
    brotli_comp_level 6;       # 1-11 (6 为平衡点)
    brotli_min_length 1024;
    brotli_types
        text/plain
        text/css
        text/javascript
        application/javascript
        application/json
        application/xml
        application/rss+xml
        application/atom+xml
        image/svg+xml
        font/ttf
        font/otf
        font/woff
        font/woff2;

    # 提供预压缩的 .br 文件 (无 CPU 负担)
    brotli_static on;

    # 可同时启用 Gzip 与 Brotli (由客户端选择所支持的)
    gzip on;
    # ... Gzip 设置
}

7. 缓存与静态文件优化

7.1 浏览器缓存

# 按静态资源类型的缓存策略
server {
    # 图片 (长期缓存)
    location ~* \.(jpg|jpeg|png|gif|ico|webp|avif|svg)$ {
        expires 1y;
        add_header Cache-Control "public, immutable";
        access_log off;
    }

    # CSS/JS (中期缓存,基于 hash 的缓存失效)
    location ~* \.(css|js)$ {
        expires 1y;
        add_header Cache-Control "public, immutable";
        access_log off;
    }

    # 字体 (超长缓存 + CORS)
    location ~* \.(woff|woff2|ttf|otf|eot)$ {
        expires 1y;
        add_header Cache-Control "public, immutable";
        add_header Access-Control-Allow-Origin "*";
        access_log off;
    }

    # HTML (短期缓存 + 重新验证)
    location ~* \.(html|htm)$ {
        expires 5m;
        add_header Cache-Control "public, must-revalidate";
    }

    # API 响应 (禁止缓存)
    location /api/ {
        add_header Cache-Control "no-store, no-cache, must-revalidate";
        # ...
    }
}

7.2 sendfile 与 tcp_nopush

http {
    # === sendfile: 内核直接传输文件 ===
    # 消除用户空间拷贝,提升性能
    sendfile on;
    sendfile_max_chunk 1m;

    # === tcp_nopush: 将响应头和文件起始部分打包在一个数据包 ===
    # 与 sendfile 配合使用
    tcp_nopush on;

    # === tcp_nodelay: 禁用 Nagle 算法 ===
    # 防止 keepalive 连接中小数据包延迟
    tcp_nodelay on;

    # === 文件描述符缓存 ===
    # 缓存频繁访问文件的元数据
    open_file_cache max=10000 inactive=30s;
    open_file_cache_valid 60s;
    open_file_cache_min_uses 2;
    open_file_cache_errors on;

    # === Keep-Alive ===
    keepalive_timeout 65;
    keepalive_requests 10000;    # 单连接最大请求数
    reset_timedout_connection on;
}

8. 代理缓存与微缓存

8.1 传统代理缓存

http {
    # 定义缓存区
    proxy_cache_path /var/cache/nginx/proxy
                     levels=1:2
                     keys_zone=api_cache:100m    # 100MB 元数据
                     max_size=5g                 # 5GB 磁盘
                     inactive=7d                 # 7 天未使用则删除
                     use_temp_path=off;

    server {
        location /api/ {
            proxy_cache api_cache;
            proxy_cache_key "$scheme$request_method$host$request_uri";

            # 按状态码设定缓存时间
            proxy_cache_valid 200 302 10m;
            proxy_cache_valid 301 1h;
            proxy_cache_valid 404 1m;
            proxy_cache_valid any 30s;

            # 缓存锁 (防止惊群)
            proxy_cache_lock on;
            proxy_cache_lock_timeout 5s;

            # 后端故障时使用过期缓存
            proxy_cache_use_stale error timeout updating
                                  http_500 http_502 http_503 http_504;
            proxy_cache_background_update on;

            # 暴露缓存状态 (调试)
            add_header X-Cache-Status $upstream_cache_status;

            proxy_pass http://backend;
        }
    }
}

8.2 微缓存 - 动态内容极速化

微缓存是"仅缓存 1 秒"的技巧。在高流量站点上可以极大地降低后端负载:

location / {
    proxy_cache api_cache;
    proxy_cache_key "$scheme$request_method$host$request_uri";

    # 仅缓存 1 秒
    proxy_cache_valid 200 1s;

    # 用缓存锁防止重复调用后端
    proxy_cache_lock on;

    # 有 Set-Cookie 时不缓存 (登录用户)
    proxy_no_cache $http_pragma $http_authorization;
    proxy_cache_bypass $http_pragma $http_authorization;

    proxy_pass http://backend;

    add_header X-Cache-Status $upstream_cache_status;
}
微缓存的效果:对于每秒 1,000 个请求的页面,若缓存 1 秒,则后端调用减少到每秒 1 次。用户最多只会看到延迟 1 秒的数据,但服务器负载降低了 99.9%。

9. Nginx 缓冲区与超时优化

http {
    # === 客户端请求缓冲区 ===
    client_body_buffer_size 128k;
    client_max_body_size 50m;
    client_header_buffer_size 4k;
    large_client_header_buffers 4 16k;

    # === 超时 ===
    client_body_timeout 12s;
    client_header_timeout 12s;
    send_timeout 10s;

    # === 代理缓冲区 ===
    proxy_buffering on;
    proxy_buffer_size 8k;
    proxy_buffers 16 8k;
    proxy_busy_buffers_size 16k;
    proxy_max_temp_file_size 2048m;
    proxy_temp_file_write_size 16k;

    # === 代理连接复用 ===
    # 与 upstream keepalive 配合使用
    proxy_http_version 1.1;
    proxy_set_header Connection "";
}

upstream backend {
    server 127.0.0.1:3000;
    # 每个 worker 保持的空闲连接数
    keepalive 64;
    keepalive_requests 1000;
    keepalive_timeout 60s;
}

10. 实战调优前后对比

我们来看看实际应用本指南的调优会带来多大的效果。

10.1 基准测试场景

  • 硬件:4 vCPU、8GB RAM、Ubuntu 22.04
  • 测试wrk -t4 -c1000 -d60s https://example.com/
  • 内容:静态 HTML + CSS + JS (~200KB)

10.2 调优前后对比

指标 默认配置 完全调优 改善
Requests/sec 3,200 31,500 +884%
Latency p50 312ms 32ms -90%
Latency p99 1,820ms 145ms -92%
错误率 2.3% 0.01% -99%
响应大小(压缩) 200KB 32KB -84%
CPU 使用率 95%(饱和) 65% 余量充足

在同等硬件上可以实现约 10 倍的吞吐量提升响应时间降低 90%

11. 检查清单与问题排查

11.1 性能调优检查清单

  • 先测量:用调优前后的基准测试验证效果
  • worker_processes auto:匹配 CPU 核心数
  • worker_connections 65535:为高并发做准备
  • 提高文件描述符限制LimitNOFILE=65535
  • 应用内核参数/etc/sysctl.d/99-nginx-tuning.conf
  • ✅ 启用 BBR 拥塞控制
  • 启用 HTTP/2listen 443 ssl http2;
  • HTTP/3(可选):在 Nginx 1.25+ 环境启用
  • TLS 1.3 + 会话缓存:将握手成本最小化
  • ✅ 启用 OCSP Stapling
  • Gzip + Brotli 并行压缩
  • ✅ 启用 sendfile + tcp_nopush + tcp_nodelay
  • ✅ 启用 open_file_cache
  • 静态文件长期缓存:图片/CSS/JS 1年
  • ✅ 应用 代理缓存或微缓存
  • Upstream keepalive:复用后端连接
  • Worker CPU affinity:减少上下文切换

11.2 常见瓶颈与解决方案

症状 原因 解决
"Too many open files" 文件描述符不足 提高 LimitNOFILE + worker_rlimit_nofile
"Connection refused" 激增 somaxconn 或 backlog 不足 调高内核参数
CPU 使用率过高 压缩级别过高或 SSL 开销 gzip_comp_level 5~6,使用 ECDSA 证书
延迟过高(p99) 后端瓶颈或缓存未命中 应用代理缓存、微缓存
内存使用量持续增长 proxy_buffers 设置不当 调整为合适的缓冲区大小
TIME_WAIT 套接字过多 连接复用不足 tcp_tw_reuse=1,利用 keepalive

结论:调优是科学也是艺术

Web 服务器性能调优绝不是简单地复制粘贴配置值的工作。最优配置会因各环境的特性、流量模式以及应用的性质而异。本指南所给出的数值只是一个通用的起点,必须通过测量和反复调优,才能找到最适合自己环境的数值。

再次整理核心原则:

  • 没有测量就没有调优 - 用基准测试建立基线,并在修改后验证效果。
  • 一次只改一项 - 同时修改多个配置,就无法判断哪个发挥了作用。
  • 找到瓶颈 - CPU?内存?网络?磁盘?要针对真正的瓶颈下手。
  • 操作系统与 Nginx 同步优化 - 仅 Nginx 配置有其极限,内核调优必须并行。
  • 缓存是最好的优化 - 没有比"不接收请求"更快的做法。请优先考虑缓存策略。
  • HTTPS 不是选项而是必需 - 不要担心 TLS 开销,而要去优化 TLS 本身。
  • 善用最新协议 - HTTP/2、HTTP/3、Brotli 并非"有则更好",而是能提供明确的性能收益。

请按步骤应用本指南中的配置,寻找适合自己环境的最优值。Web 服务器性能调优并非一次性工作,而是需要随着服务增长不断重新评估和调整的运维工作的一部分。经过合理调优的 Nginx 能让相同硬件承载 10 倍的用户,这也是最有效的基础设施投资。