针对有些用户能ping通我们的网站,但是连接时超时服务器没有任何响应,怀疑问题处在了了http的三次握手环节,这是决定通过抓包进行分析:
1、有问题机器的截图:
2、正常机器的截图:
3、发现问题
从抓包数据发现,web服务器对出问题机器和正常机器系统的tcp syn包都返回ACK包,但存在问题发出的tcp syn包有时候响应,有时候不响应。不响应时,终端与web服务器之间的tcp连接无法正常建立,导致页面不能打开。对比这两种数据包,就在时间戳上有差异,存在问题的机器发出的tcp syn包带有时间戳,因此怀疑时间戳问题导致的故障。
4、解决问题
既然怀疑是时间戳导致的,那我们就着手分析如果将出现问题的机器的时间戳去掉会不会解决问题。针对带有时间戳的tcp syn包不响应的问题,查阅了相关资料得知产生问题的原因是出问题系统中的注册表中有Tcp1323opts这个选项,会导致其在发包时加入时间戳,经过nat之后,如果前面相同的端口被使用过,且时间戳大于这个链接发出的syn中的时间戳,服务器上就会忽略掉这个syn,不返会syn-ack消息,表现为用户无法正常完成tcp3次握手,从而不能打开web页面。在业务闲时,如果用户nat的端口没有被使用过时,就可以正常打开;业务忙时,nat端口重复使用的频率高,很难分到没有被使用的端口,从而产生这种问题。
目前看有两种方法解决:
(1) 是在服务器上修改变量
首先我们先查看一下我们服务器net.ipv4.tcp_timestamps的默认值,如果该值为0测说名不是该问题导致,如果是1我们需要将该值设置为1。
查看默认值的方法:[root@localhost ~]# cat /proc/sys/net/ipv4/tcp_timestamps
修改该值的方法:vim /etc/sysctl.conf 添加 net.ipv4.tcp_timestamps=0
(2)修改客户端的注册表Tcp1323Opts设置为0。
备注:
Tcp1323Opts
说明:该参数控制 RFC 1323 时间戳与窗口缩放选项。默认情况下,启用时间戳与
窗口缩放,但是可以使用标志位进行控制。0 位控制窗口缩放,1 位控制时间戳。
值为0(禁用 RFC 1323 选项)
值为1(仅启用窗口缩放)
值为2(仅启用时间戳)
值为3(两个选项均启用)
net.ipv4.tcp_timestamps=0
说明:时间戳可以避免序列号的卷绕。一个1Gbps的链路肯定会遇到以前用过的序列号。时间戳能够让内核接受这种“异常”的数据包。这里需要将其关掉。
值为0(禁用时间戳)
值为1(启用时间戳)
只有客户端和服务端都开启时间戳的情况下,才会出现能ping通不能建立tcp三次握手的情况,所以做为提供服务的公司,不可能保证所有的用户都关闭时间戳,这个功能,所以我们必须关闭时间戳,这样才能给所用用户提供正常的服务。
转载请注明:爱开源 » 记一次TCP连接异常故障解决