[Socket]尴尬的CLOSE_WAIT状态以及应对策略本文假定您熟悉 Socket、C++ 和TCP状态。
 郑昀@掌上灵通
 
摘要:本文阐述了为何socket连接锁定在CLOSE_WAIT状态,以及通过什么措施力求避免这种情况。不久前,我的Socket Client程序遇到了一个非常尴尬的错误。它本来应该在一个socket长连接上持续不断地向服务器发送数据,如果socket连接断开,那么程序会自动不断地重试建立连接。有一天发现程序在不断尝试建立连接,但是总是失败。用netstat查看,这个程序竟然有上千个socket连接处于CLOSE_WAIT状态,以至于达到了上限,所以无法建立新的socket连接了。为什么会这样呢?它们为什么会都处在CLOSE_WAIT状态呢?CLOSE_WAIT状态的生成原因
首先我们知道,如果我们的Client程序处于CLOSE_WAIT状态的话,说明套接字是被动关闭的!因为如果是Server端主动断掉当前连接的话,那么双方关闭这个TCP连接共需要四个packet:       Server  --->  FIN  --->  Client       Server  <---  ACK  <---  Client    这时候Server端处于FIN_WAIT_2状态;而我们的程序处于CLOSE_WAIT状态。       Server  <---  FIN  <---  Client这时Client发送FIN给Server,Client就置为LAST_ACK状态。        Server  --->  ACK  --->  ClientServer回应了ACK,那么Client的套接字才会真正置为CLOSED状态。 我们的程序处于CLOSE_WAIT状态,而不是LAST_ACK状态,说明还没有发FIN给Server,那么可能是在关闭连接之前还有许多数据要发送或者其他事要做,导致没有发这个FIN packet。 原因知道了,那么为什么不发FIN包呢,难道会在关闭己方连接前有那么多事情要做吗?还有一个问题,为什么有数千个连接都处于这个状态呢?难道那段时间内,服务器端总是主动拆除我们的连接吗? 不管怎么样,我们必须防止类似情况再度发生!首先,我们要防止不断开辟新的端口,这可以通过设置SO_REUSEADDR套接字选项做到:重用本地地址和端口
以前我总是一个端口不行,就换一个新的使用,所以导致让数千个端口进入CLOSE_WAIT状态。如果下次还发生这种尴尬状况,我希望加一个限定,只是当前这个端口处于CLOSE_WAIT状态!在调用sockConnected = socket(AF_INET, SOCK_STREAM, 0);之后,我们要设置该套接字的选项来重用:/// 允许重用本地地址和端口:/// 这样的好处是,即使socket断了,调用前面的socket函数也不会占用另一个,而是始终就是一个端口/// 这样防止socket始终连接不上,那么按照原来的做法,会不断地换端口。int nREUSEADDR = 1;setsockopt(sockConnected,              SOL_SOCKET,              SO_REUSEADDR,              (const char*)&nREUSEADDR,              sizeof(int));
 教科书上是这么说的:这样,假如服务器关闭或者退出,造成本地地址和端口都处于TIME_WAIT状态,那么SO_REUSEADDR就显得非常有用。也许我们无法避免被冻结在CLOSE_WAIT状态永远不出现,但起码可以保证不会占用新的端口。其次,我们要设置SO_LINGER套接字选项:从容关闭还是强行关闭?
LINGER是“拖延”的意思。默认情况下(Win2k),SO_DONTLINGER套接字选项的是1;SO_LINGER选项是,linger为{l_onoff:0,l_linger:0}。如果在发送数据的过程中(send()没有完成,还有数据没发送)而调用了closesocket(),以前我们一般采取的措施是“从容关闭”:因为在退出服务或者每次重新建立socket之前,我都会先调用/// 先将双向的通讯关闭     shutdown(sockConnected, SD_BOTH);     /// 安全起见,每次建立Socket连接前,先把这个旧连接关闭closesocket(sockConnected); 我们这次要这么做:设置SO_LINGER为零(亦即linger结构中的l_onoff域设为非零,但l_linger为0),便不用担心closesocket调用进入“锁定”状态(等待完成),不论是否有排队数据未发送或未被确认。这种关闭方式称为“强行关闭”,因为套接字的虚电路立即被复位,尚未发出的所有数据都会丢失。在远端的recv()调用都会失败,并返回WSAECONNRESET错误。在connect成功建立连接之后设置该选项:linger m_sLinger;m_sLinger.l_onoff = 1;  // (在closesocket()调用,但是还有数据没发送完毕的时候容许逗留)m_sLinger.l_linger = 0; // (容许逗留的时间为0秒)setsockopt(sockConnected,         SOL_SOCKET,         SO_LINGER,         (const char*)&m_sLinger,         sizeof(linger));
  总结
也许我们避免不了CLOSE_WAIT状态冻结的再次出现,但我们会使影响降到最小,希望那个重用套接字选项能够使得下一次重新建立连接时可以把CLOSE_WAIT状态踢掉。

解决方案 »

  1.   

    出现CLOSE_WAIT的原因很简单,就是某一方在网络连接断开后,没有检测到这个错误,没有执行closesocket,导致了这个状态的实现,这在TCP/IP协议的状态变迁图上可以清楚看到。同时和这个相对应的还有一种叫TIME_WAIT的。另外,把SOCKET的SO_LINGER设置为0秒拖延(也就是立即关闭)在很多时候是有害处的。
    还有,把端口设置为可复用是一种不安全的网络编程方法。
      

  2.   

    Thank  elssann(臭屁虫和他的开心果) :“SOCKET的SO_LINGER设置为0秒拖延(也就是立即关闭)在很多时候是有害处的。”:
    我的未发送数据丢失了也无所谓,所以是不是这么设置是可以接受的?
    “把端口设置为可复用是一种不安全的网络编程方法”:
    你说得对。“某一方在网络连接断开后,没有检测到这个错误,没有执行closesocket,导致了这个状态的实现”:
    但是我在退出服务或者每次重新建立socket之前,我都会先调用
         shutdown(sockConnected, SD_BOTH);
         closesocket(sockConnected);
    为什么会有这么多连接都处于CLOSE_WAIT呢?照理说重建立连接之前都是经过这两个函数的了?
      

  3.   

    我的意思是:当一方关闭连接后,另外一方没有检测到,就导致了CLOSE_WAIT的出现,上次我的一个朋友也是这样,他写了一个客户端和APACHE连接,当APACHE把连接断掉后,他没检测到,出现了CLOSE_WAIT,后来我叫他检测了这个地方,他添加了调用closesocket的代码后,这个问题就消除了。
    如果你在关闭连接前还是出现CLOSE_WAIT,建议你取消shutdown的调用,直接两边closesocket试试。
    另外一个问题:比如这样的一个例子:
    当客户端登录上服务器后,发送身份验证的请求,服务器收到了数据,对客户端身份进行验证,发现密码错误,这时候服务器的一般做法应该是先发送一个密码错误的信息给客户端,然后把连接断掉。如果把
    m_sLinger.l_onoff = 1;  
    m_sLinger.l_linger = 0; 
    这样设置后,很多情况下,客户端根本就收不到密码错误的消息,连接就被断了。
      

  4.   

    我想说明的是,如果我们的程序处于CLOSE_WAIT状态的话,说明套接字是被动关闭的!因为如果是对方主动断掉当前连接的话,那么双方关闭这个TCP连接共需要四个packet:
           Server  --->  FIN  --->  Client
           Server  <---  ACK  <---  Client
    这时候Server端处于FIN_WAIT_2状态;而我们的程序处于CLOSE_WAIT状态。
           Server  <---  FIN  <---  Client
    这时Client发送FIN给Server,Client就置为LAST_ACK状态。
           Server  --->  ACK  --->  Client也就是说,“当一方关闭连接后,另外一方没有检测到”是无法解释CLOSE_WAIT状态的,因为只有对方发包给我们,而且我们回应了,才会进入CLOSE_WAIT状态。
      

  5.   

    能不能解释请看这里
    http://blog.csdn.net/cqq/archive/2005/01/26/269160.aspx再看这个图:http://tech.ccidnet.com/pub/attachment/2004/8/322252.png断开连接的时候,
    当发起主动关闭的左边这方发送一个FIN过去后,右边被动关闭的这方要回应一个ACK,这个ACK是TCP回应的,而不是应用程序发送的,此时,被动关闭的一方就处于CLOSE_WAIT状态了。如果此时被动关闭的这一方不再继续调用closesocket,那么他就不会发送接下来的FIN,导致自己老是处于CLOSE_WAIT。只有被动关闭的这一方调用了closesocket,才会发送一个FIN给主动关闭的这一方,同时也使得自己的状态变迁为LAST_ACK。
      

  6.   

    要弄清楚的是,让被动关闭的这方进入CLOSE_WAIT是主动关闭那边发送了FIN过来,被动关闭者一方的TCP回应ACK,而不是应用程序的某个调用来回应这个ACK。
      

  7.   

    “要弄清楚的是,让被动关闭的这方进入CLOSE_WAIT是主动关闭那边发送了FIN过来,被动关闭者一方的TCP回应ACK,而不是应用程序的某个调用来回应这个ACK。”
    这就是我没搞清的地方。
    多谢 elssann(臭屁虫和他的开心果) 了!
      

  8.   

    看了http://blog.csdn.net/cqq/archive/2005/01/26/269160.aspx,
    现象几乎和我一样。
      

  9.   

    呵呵。
    反正TCP挺麻烦的,里面要注意的边边角角太多了。
      

  10.   

    “检查了一下自己的程序,发现是有的情况忘记关闭socket连接了
    后来一一修改,加上了closesocket(),保证每一个socket
    在我这边都关掉了。

    不过我没明白这个,对方通知我他要断开连接,我这边怎么会不知道呢?closesocket()加在哪里呢?
      

  11.   

    比如被动关闭的是客户端当对方调用closesocket的时候,你的程序正在 int nRet = recv(s,....);
    if (nRet == SOCKET_ERROR)
    {
      // closesocket(s);
      return FALSE;
    }很多人就是忘记了那句closesocket,这种代码太常见了。我的理解,当主动关闭的一方发送FIN到被动关闭这边后,被动关闭这边的TCP马上回应一个ACK过去,同时向上面应用程序提交一个ERROR,导致上面的SOCKET的send或者recv返回SOCKET_ERROR,正常情况下,如果上面在返回SOCKET_ERROR后调用了closesocket,那么被动关闭的者一方的TCP就会发送一个FIN过去,自己的状态就变迁到LAST_ACK.
      

  12.   

    int nRecvBufLength =
    recv(sockConnected,
    szRecvBuffer,
    sizeof(szRecvBuffer),
    0);
    /// zhengyun 20050130:
    ///  elssann举例说,当对方调用closesocket的时候,我的程序正在
    ///  recv,这时候有可能对方发送的FIN包我没有收到,而是由TCP代回了
    ///  一个ACK包,所以我这边程序进入CLOSE_WAIT状态。
    ///  所以他建议在这里判断是否已出错,是就主动closesocket。
    ///  因为前面我们已经设置了recv超时时间为30秒,那么如果真的是超时了,
    ///  这里收到的错误应该是WSAETIMEDOUT,这种情况下也可以关闭连接的
    if (nRecvBufLength == SOCKET_ERROR)
    {
    TRACE_INFO(_T("=用recv接收发生Socket错误="));
    closesocket(sockConnected);
    continue;
    }这样可以吗?
      

  13.   

    if (nRecvBufLength == SOCKET_ERROR||nRecvBufLength ==0)
    没处理等于0关闭的情况
      

  14.   

    如果recv返回0,是说优雅关闭了,那么是否还需要我这边再次调用closesocket了呢?
      

  15.   

    recv返回0不一定是连接关闭吧,closesocket的调用应该在处理完之后调用,也就是说,即使recv返回0,最后还需要closesocket。不然CLOSE_WAITE可能会出现。
      

  16.   

    CLOSE_WAIT就是为了防止较短的时间内,重复连接而一般设置为MSL的2倍左右,一般也就是1-4s的值
      

  17.   

    谢谢大家的热心指导!
    相关文章和回帖我贴在
    http://blog.csdn.net/zhengyun_ustc/archive/2005/01/30/socketclosewait.aspx