1.
故障概述与准备
说明故障范围与目标:定位是单台实例、子网还是全站不可用。
准备工作:登录控制台账号、获取实例ID、预备SSH密钥、记录当前DNS/浮动IP、低TTL策略。
沟通预案:通知值班、准备备用机(冷备/热备),记录应急联系方式(高防/云厂商)。
2.
确认故障范围与影响面
检查外部访问:用curl/浏览器测试HTTP(S)、ping/traceroute到IP。命令示例:ping -c4
; traceroute -n ; curl -I http://域名。
内部确认:登录其他内网或堡垒机确认是否能访问目标实例,判断是网络层问题还是服务层问题。
3.
检查云厂商控制台与高防状态
登录云控制台查看:实例状态、网络ACL、Security Group、路由表、弹性IP绑定、控制台快照。
查看高防面板:检查是否触发清洗、是否处于黑洞(BGP null-route)状态、是否有流量告警,记录时间和流量峰值。
4.
基础连通性与端口检查
本地到服务器连通性:使用telnet或nc检测端口:telnet 80 或 nc -vz 22。
在服务器上检查接口与路由:ip addr; ip route; ss -tunlp 或 netstat -tulpen。确认服务监听端口正确。
5.
防火墙、安全组与ACL排查
检查iptables/nftables规则:sudo iptables -L -n -v; sudo nft list ruleset。
检查云端安全组/ACL是否误阻流量,若有最近修改记录,回滚或临时放通对应端口以排查。
6.
系统资源与服务进程核查
查看资源使用:top 或 htop,free -m, df -h,确认CPU、内存、磁盘是否耗尽。
检查服务状态:systemctl status nginx/mysql/...; journalctl -u 服务 -n 200。对卡死进程可先重启服务:sudo systemctl restart 服务名 并观察日志。
7.
日志收集与抓包分析
收集关键日志:/var/log/syslog, /var/log/messages, 应用日志和高防日志。使用grep定位错误关键字。
抓包分析:sudo tcpdump -i eth0 -s 0 -w /tmp/capture.pcap host and port 80,下载到本地用Wireshark或tshark分析SYN flood、异常重复包等。
8.
短期应急恢复措施
重启服务或实例:先重启应用服务,必要时重启实例(注意重启前快照)。
切换浮动IP/弹性IP:将公网流量临时切到备用实例或放到负载均衡器后端;更新BGP/高防配置请求流量切到清洗节点。
9.
磁盘/数据恢复与快照恢复
检查磁盘健康:sudo smartctl -a /dev/sdX(若支持)。
从快照恢复:在控制台创建新实例挂载最新快照的卷,或在原实例恢复卷后运行fsck -y /dev/xxx。若需文件级恢复,使用rsync或scp从备份恢复:rsync -avz /backup/ user@目标:/var/www/。
10.
与高防/云厂商协作流程
提交工单要点:列出实例ID、时间线、抓包文件、流量峰值、业务影响截图、操作尝试记录。
沟通选项:请求临时流量清洗、切换到任何到点(Anycast)、设置流量白名单或调整策略,确认SLA与恢复时间预期。
11.
恢复后验证与加固
验证点:外部访问、业务接口、数据库连通、日志无异常高频错误。使用自动化脚本重复检查。
加固建议:启用WAF、限流、黑白名单、高可用架构(多AZ/多机房)、定期快照与备份演练。
12.
常用命令与脚本清单
重要命令示例:ping/traceroute, curl -I, ss -tunlp, iptables -L, tcpdump -i, journalctl -xe, df -h, top。
脚本建议:自动化快照脚本、备份同步脚本(rsync)、故障告警脚本(上传日志+通知),并保存在版本库。
13.
问:遭遇DDoS导致流量暴涨时我该先做什么?
答:第一步在控制台或高防面板确认是否触发清洗,临时开启流量清洗/黑洞或将流量导向清洗节点;同时降低DNS TTL、启用备用域名/负载均衡并启动备机。
14.
问:实例无法SSH但控制台显示运行正常,应如何排查?
答:通过控制台查看网络配置与安全组,尝试控制台提供的serial/console登录查看系统dmesg、sshd状态;若无响应,可在控制台挂载救援盘修复sshd_config或authorized_keys。
15.
问:需要恢复到最近快照,如何最小化数据丢失?
答:先在新实例上挂载快照卷并以只读方式比对数据;用rsync增量同步差异并在低峰切换IP或DNS,保证同步期间应用处于一致状态,切换前再做一次最后增量同步。
来源:运维手册 美国高防云服务器故障排查与恢复流程