二、节点故障排查
在收到报警短信、邮件后故障排查过程
(一)机房故障
(二)遭受***
(一)、机房故障判断
1) 首先ping网关和节点ip,如果都不通或都丢包,并看流量图,如果发现流量中断、则为机房故障,和机房联系。
2) 进一步判断,选取其它节点ping下网关和节点ip,查看结果,并做trace
(二)、***故障判断
查看相应故障节点流量图、入流量是否突升或流量中断,连接节点服务器(一般是连不上或者连上很慢)、通过远程管理卡连接服务器进行初步排查受***网站。如下图
1、在服务器中tcpdump抓包查看是否有UDP或ICMP***
tcpdump -ni eth0 udp or icmp
如果在抓包的时候屏幕刷屏很快,发现大量UDP包或者ICMP包,并且长度比较大,则判断为UDP或ICMP***
2、在服务器中tcpdump抓包查看是否有SYN flood ***
tcpdump -ni eth0 port 80
如果在抓包中发现很多SYN包,则判断为SYN FLOOD***,如下图
3、判断CC***
通过netstat -antl | grep SYN 查看 是否有大量syn_sent 和SYN_RECV 连接,如果有,查看syn_sent中同一个ip比较多的。在通过grep IP /etc/nginx/proxy/* 查找出相应域名。进入nginx的access_www.xxx.com_log文件 cd /usr/local/apache2/logs/ ,在tail -f access_www.xxx.com_log 查看是否有大量的499或者是很多同一个URL刷屏或大量502,如果有则为CC***。