DNS、TLS、L4/L7、负载均衡、CDN、反向代理、服务流量治理与生产级网络排障 (2025-2026)
| 上层 | 依赖的下层 | 关系说明 |
|---|---|---|
| 域名访问 | DNS + TCP/UDP | 没有稳定的域名解析、TTL 策略和健康切换,入口故障很容易先于应用故障暴露。 |
| HTTPS 服务 | TLS + 证书体系 | 应用层是否安全,不只看代码,还取决于证书签发、续期、加密套件和终止位置。 |
| 负载均衡 | 连接模型 + 健康检查 | 负载均衡不是“随机分发请求”,而是基于连接、权重、健康状态和故障切换做稳定入口控制。 |
| API Gateway / 反向代理 | L7 路由能力 | 路径转发、Header 改写、限流、鉴权和灰度策略通常都建立在七层可见性之上。 |
| 服务网格 | 代理数据面 + 控制面 | 服务间流量治理来自 Sidecar / eBPF 数据面与统一下发策略,而不只是应用内部 SDK。 |
| 流量发布 | 可观测 + 路由能力 | 蓝绿、金丝雀、区域切流和回滚,本质上都是流量控制问题,不是单纯部署问题。 |
| 网络排障 | 全链路可见性 | DNS、TLS、四层、七层、代理层任何一层都可能把错误表现成“服务不可用”。 |
权威 DNS、递归解析、TTL、缓存污染、健康切换、地域解析和 CNAME 链路都会直接影响访问延迟与故障模式。
TTL 太长会让切流和故障恢复变慢;TTL 太短会放大解析流量与抖动。多层 CNAME 可能增加首包延迟和排障复杂度。
入口流量治理如果没有 DNS 视角,很多“应用问题”其实根本还没到应用层。
身份认证、链路加密和完整性校验。HTTPS 的价值不只是“防窃听”,还包括防中间人和建立可信入口。
证书签发、自动续期、TLS 终止位置、双向 TLS、加密套件和旧协议淘汰,都会影响安全与性能。
“配了 HTTPS 就安全”是错觉。证书过期、弱套件、边界终止混乱、内部明文回源都可能把链路重新暴露出来。
基于 IP、端口、连接转发,性能高、透明性强,适合 TCP/UDP 泛化流量和大吞吐入口。
可理解 HTTP Host、Path、Header、Cookie 和状态码,更适合做路由、鉴权、灰度、压缩和缓存策略。
不是谁先进,而是谁更贴合你的控制粒度。很多生产系统会同时拥有 L4 入口和 L7 应用代理。
降低源站压力、缩短用户访问路径、吸收突发流量,并把静态资源和部分动态边缘化能力前置。
缓存键设计、Header 参与规则、回源超时、刷新失效、区域穿透和动态接口误缓存,常常比“接 CDN”本身更难。
CDN 不是单纯的“加速器”,而是你入口流量拓扑的一部分,必须和源站、证书、域名和发布一起看。
Nginx / Envoy / HAProxy 常负责入口转发、连接复用、Header 处理、静态资源代理和上游健康控制。
更强调鉴权、限流、配额、审计、开发者入口与统一策略,适合对外平台和组织级接口治理。
更关注服务间流量治理、mTLS、重试、熔断和链路可见性,适合微服务间东西向流量控制。
| 类别 | 常见项目 / 服务 | 定位 | 适用场景 | 关键考量 |
|---|---|---|---|---|
| DNS | Route 53 / Cloudflare DNS / CoreDNS / Bind | 域名解析与健康切换 | 公网入口、集群内服务发现 | TTL、可用性、区域策略 |
| L4 负载均衡 | AWS NLB / LVS / F5 / MetalLB | 连接转发与高吞吐入口 | TCP/UDP 服务、网关前置 | 健康检查、连接追踪、故障切换 |
| L7 代理 | Nginx / HAProxy / Envoy / Traefik | HTTP 路由与应用层治理 | 反向代理、路径路由、灰度发布 | 配置复杂度、扩展性、观测 |
| CDN / Edge | Cloudflare / Akamai / Fastly / 阿里云 CDN | 边缘缓存与流量吸收 | 静态资源、全球访问、抗突发 | 缓存规则、回源链路、区域覆盖 |
| API Gateway | Kong / APISIX / Envoy Gateway / Nginx | 鉴权、限流、审计、统一入口 | 开放平台、BFF、组织级治理 | 策略一致性、插件治理、性能 |
| Service Mesh | Istio / Linkerd / Cilium Service Mesh | 服务间流量控制与安全 | 微服务治理、mTLS、金丝雀流量 | 心智负担、代理开销、调试复杂度 |
| 网络观测 | tcpdump / Wireshark / eBPF / Hubble / NetFlow | 抓包、流量画像、性能分析 | 排障、容量分析、安全审计 | 采样成本、权限、可视范围 |
| 方案 | 强项 | 代价 | 适合场景 |
|---|---|---|---|
| 反向代理 | 入口转发、静态代理、基本路由 | 治理能力有限,需要额外堆叠 | 单入口网站、基础 HTTP 服务 |
| API Gateway | 统一鉴权、配额、审计、策略入口 | 插件和治理策略容易膨胀 | 开放平台、BFF、组织级 API |
| Service Mesh | 服务间流量治理、mTLS、可观测 | 控制面与数据面心智负担高 | 微服务体系、东西向安全与观测 |
| eBPF 数据面 | 更低开销的网络观测与部分治理能力 | 调试门槛高,生态仍在演进 | 高性能网络、内核级观测、平台团队 |
| 问题 | 更常见做法 | 原因 |
|---|---|---|
| 全球访问加速 | DNS + CDN + 区域入口 | 先就近接入,再按区域回源或切流 |
| 开放 API 治理 | L7 Gateway + 鉴权 + 限流 + 审计 | 需要理解调用身份、租户和接口粒度 |
| 多服务灰度发布 | L7 路由 / Mesh 流量分配 | 按版本或用户群体切流更可控 |
| 大流量 TCP 服务 | L4 入口 + 上层协议代理 | 兼顾吞吐和协议层治理 |
DNS 解析成功率、TLS 握手失败率、LB 健康实例数、CDN 命中率、回源错误率、HTTP 状态码分布、尾延迟。
连接数、连接复用率、重传、丢包、超时、RST、SYN backlog、队头阻塞和上游连接池耗尽情况。
如果你只能看到应用日志,却看不到入口层和代理层,很多网络问题会被误诊成代码问题。
全链路加密继续深化: HTTPS、mTLS 和更细粒度身份边界会继续向入口和服务间链路扩展。
流量治理与发布进一步耦合: 灰度、金丝雀、区域切流和回滚会越来越依赖统一流量控制能力。
入口观测更加前置: DNS、TLS、代理、回源和尾延迟会越来越被纳入常规观测体系,而不只看应用日志。
eBPF 网络观测: 更低开销、更靠近内核的数据面观测会继续扩张,但团队掌握成本仍不低。
边缘执行与区域智能路由: CDN 和边缘平台会继续把部分逻辑前移,但核心状态仍通常留在中心区域。
Gateway API 与统一入口模型: 入口配置会继续向更标准、更可组合的模型靠拢。
入口层黑盒化: 如果团队只知道“有一层网关”,却不知道里面怎么转、怎么观测,故障会很难定位。
过度堆叠代理层: CDN、WAF、LB、Gateway、Mesh 层层叠加后,延迟、Header 传递和排障复杂度会明显上升。
忽视证书与回源链路: 很多线上事故看起来像应用故障,实际上是证书、回源、健康检查或 DNS 切流策略出了问题。