香港服务器网站故障排查指南
一 快速定位问题范围
- 先判断影响范围:是单个地区/单条线路打不开,还是全部用户都异常。可让不同地区的同事或朋友同时访问,或用在线多地区测速工具对比。
- 做三层连通性测试:
1) 用ping 域名/IP看是否可达;
2) 用tracert(Windows)/traceroute(macOS/Linux)定位在哪一跳开始超时或高延迟;
3) 用curl -Iv https://你的域名查看 TLS 握手与 HTTP 状态码。
- 若只有你本地异常,优先排查本地网络、浏览器缓存与 DNS 缓存;若部分地区异常,可能是跨境链路波动/拥塞或DNS 解析不一致。
- 若服务器管理面板(如KVM/IPMI)可登录但外网不通,多为系统网络配置或防火墙问题;若面板也进不去,可能是系统宕机/资源耗尽/被攻击,需联系机房协助。
二 常见故障与处理清单
| 症状 | 快速检查 | 处理要点 |
|—|—|—|
| 全部用户打不开 | ping 域名/IP、tracert 路径 | 若 ping 不通或高丢包,可能为机房/线路问题;若海外可访问而大陆不通,倾向中港链路或DNS问题,可临时将 DNS 换为8.8.8.8/1.1.1.1验证 |
| 仅本地打不开 | 换网络/换浏览器/清缓存 | 多为本地网络/DNS 缓存;检查本机防火墙是否拦截 80/443 |
| 能 ping 通但端口不通 | telnet 域名 80/443 或 nc -vz | 检查云安全组/服务器防火墙是否放行 80/443;Windows 将 80 加入防火墙例外;Linux 检查 iptables/firewalld 规则 |
| 访问很慢/延迟高 | ping 延迟、tracert 跳数与时延 | 高峰时段跨境链路拥塞常见;考虑BGP/CN2线路、CDN 加速、优化前端资源与数据库 |
| 502/503/504 错误 | 查看 Web/应用/数据库日志 | 常见为后端进程挂掉、PHP-FPM 队列满、数据库慢查询/连接数不足;重启服务、扩容进程池、优化慢 SQL |
| 403/404 错误 | 检查站点根目录与权限 | 403:目录无读取权限或IP 被拒;404:伪静态规则错误、资源路径错误 |
| 域名解析不到 | nslookup/dig 域名 | 检查A/CNAME 记录是否指向正确 IP;新解析可能10 分钟–48 小时全球生效;必要时更换为更快的 DNS |
| 服务器远程连不上 | 控制台登录、资源监控 | 资源被占满(CPU/内存/IO)或SSH 端口被改/被封;重启服务/实例,必要时回滚变更 |
| 疑似被攻击/频繁掉线 | 带宽监控、连接数、防火墙日志 | 带宽突增、连接数暴涨多为DDoS/CC;立即启用高防 IP/CDN,并在防火墙封禁异常 IP |
| 网站文件被加密/篡改 | 文件时间戳/异常进程 | 可能为勒索/木马;立刻断网、隔离实例、从离线备份恢复,排查入侵路径并修补漏洞 |
三 按系统与环境的关键检查
- Windows(IIS/ASP/.NET)
- 确认IIS 站点已启动,应用程序池未停止;检查默认首页文档(index.html/default.aspx)是否配置。
- 网站目录给Users 读取/写入权限(按最小权限原则);检查绑定 IP/端口与主机头。
- 开启防火墙并放行80/443;若修改过远程端口,确保新端口已在防火墙与云安全组放行。
- Linux(Nginx/Apache/PHP/MySQL)
- 检查服务状态:systemctl status nginx/apache2/php-fpm/mysqld;查看错误日志(/var/log/nginx/error.log 等)。
- 排查端口占用:ss -tulpen | grep -E ‘(:80|:443)’; 如80 被占用,停用占用进程或修改 Web 端口并同步更新防火墙/安全组。
- 资源与连接:top/vmstat/iostat 查CPU/内存/IO;netstat -an | awk ‘{print $6}’ | sort | uniq -c 看连接状态;必要时调大进程/连接数上限。
- 数据库:show full processlist; 检查慢查询日志,添加索引或优化语句。
四 性能优化与稳定性加固
- 线路与机房:面向大陆用户优先BGP 多线或CN2/CN2 GIA等优化线路,降低跨网与跨境时延。
- CDN 与缓存:接入CDN做动静分离,静态资源长期缓存,动态内容走源站;海外用户可叠加Cloudflare等边缘节点。
- DNS 优化:使用智能解析/就近接入,可配置国内外双 DNS策略提升可用性与首包时间。
- 前端与数据库:压缩 HTML/CSS/JS,合并请求,启用Gzip/Brotli;图片懒加载;数据库索引优化、慢查询治理;引入Redis/Memcached做缓存。
- 监控与告警:部署Ping/Traceroute/带宽/CPU/内存监控与阈值告警;异常时自动通知,缩短MTTR。
- 安全与高可用:开启WAF/防 DDoS,限制端口与速率;关键业务使用多节点/负载均衡与自动故障切换。
五 应急与求助模板
- 先恢复再定位:优先切换到维护页/CDN 回源,保证可用性;随后滚动回滚最近变更。
- 一键自检命令清单(Linux):
- 连通与路由:ping -c 10 你的域名;traceroute 你的域名
- 端口与服务:ss -tulpen | grep -E ‘(:80|:443)’;curl -Iv https://你的域名
- 资源与连接:top -b -d 1 -n 20;netstat -an | awk ‘{print $6}’ | sort | uniq -c | sort -nr
- 日志:tail -n 200 /var/log/nginx/error.log /var/log/messages
- 向服务商提交工单时请附上:
- 时间点、现象(截图/错误码)、影响范围(地区/运营商)、自检结果(ping/tracert/端口/日志摘要)、已采取的处置措施与期望协助。