
识别指标时应优先关注:1) 延迟(RTT/平均/百分位),2) 丢包率,3) 抖动(jitter),4) 带宽利用率及吞吐,5) 路由跳数和BGP路径稳定性。
可结合主动探测和被动监控:主动用 ping/mtr/iperf3/traceroute;被动用流量监控(ntop/NetFlow/sFlow)和应用层监控(HTTP TTFB)。
选择支持多点探测与图表的系统,如 Prometheus+Grafana、Zabbix、Smokeping 或商业AIOps,确保能展示延迟百分位和丢包分布。
对 CN2 路径要做跨大陆多点探测,优先使用从中国大陆出口点到美国机房的链路测试,区分 ICMP 与 TCP 测试结果,避免仅依赖单一工具导致误判。
阈值设置推荐基于历史数据和SLA:例如平均延迟阈值设为100ms(视地区而定),95/99百分位延迟阈值分别设为150ms/200ms;丢包率常用阈值为0.5%(警告)与1%(严重)。
采用三级告警:信息级(短时抖动)、警告级(持续超过阈值5-10分钟)、紧急级(影响用户或持续超过阈值30分钟)。
使用移动平均、百分位统计、跨探测点比对,并结合业务层健康检测。告警需包含最近的 traceroute/mtr 输出与时间序列截图,便于快速定位。
将紧急告警推送到SRE on-call手机/工单系统,同时设置抑制窗口(例:维护时段)与自动重试机制,避免短时抖动触发大量告警。
定位步骤应遵循由外到内、由高层到低层的原则:1) 多点比对:在不同源点同时发起 mtr/iperf 测试;2) 路由对比:查看 BGP 路由变化与社区属性;3) 链路层检查:查看接口错误、丢弃、CRC 与链路利用率。
首选使用 mtr/traceroute/iperf3/tcpdump。mtr 能展示丢包发生在哪跳,traceroute 可查看路径是否经过预期的 CN2 节点,tcpdump 可用于抓包分析重传与窗口问题。
如果丢包集中在某一跳并在后续跳继续出现,通常是 ISP/中间链路问题;若服务器本地出现端口错误或队列拥塞指标上升,则可能是机房或宿主机问题。
向 CN2/运营商提交问题时,需提供精确时间戳、mtr/traceroute 输出(带测点)、AS 路由表快照与 pcap(如有),以便他们在 NOC 中快速定位 PE/链路故障。
日常维护包括链路巡检、路由优化、系统与驱动升级、以及流量管理。定期检查接口错误、队列长度、BGP 会话稳定性与路由收敛时间。
通过 BGP 路径优化(local-pref、AS-path prepending、社区标记)引导优先走 CN2/GIA 专线;在边缘做合理的 QoS 策略,避免突发流量导致队列溢出。
调优 TCP window、开启 BBR 或合适的拥塞控制算法、调整 MTU 以避免分片(尤其跨境时),并确保网卡驱动与固件为最新版本。
做好带宽容量规划并启用备用链路或多线冗余,使用智能流量调度或 CDN 辅助,减轻跨洋链路突发压力。
首先遵循事件响应流程:检测→确认→隔离→上报→跟进→恢复。上报时要结构化提供证据:时间范围、影响范围、mtr/traceroute、丢包样本、带宽曲线与 pcap。
提供明确的受影响流量 IP、AS、出问题的 PE/POP(如能识别)、以及业务优先级,请求 NOC 检查对应 PE 到 CE 的物理/逻辑状态与 BGP session。
若一线支持无法解决,要求转接到高级工程师或 TAC,保持事件单号并定期更新进度,必要时请求临时流量切换或路线绕行措施。
故障结束后保存完整的时序数据与采样,进行 RCA(Root Cause Analysis),并把优化建议写入跑书或变更计划以降低复发概率。