尴尬的CLOSE

    技术2022-05-11  125

    摘要: 本文阐述了为何 socket 连接锁定在 CLOSE_WAIT 状态,以及通过什么措施力求避免这种情况。   不久前,我的 Socket Client 程序遇到了一个非常尴尬的错误。它本来应该在一个 socket 长连接上持续不断地向服务器发送数据,如果 socket 连接断开,那么程序会自动不断地重试建立连接。 有一天发现程序在不断尝试建立连接,但是总是失败。用 netstat 查看,这个程序竟然有上千个 socket 连接处于 CLOSE_WAIT 状态,以至于达到了上限,所以无法建立新的 socket 连接了。 为什么会这样呢? 它们为什么会都处在 CLOSE_WAIT 状态呢? CLOSE_WAIT状态的生成原因 首先我们知道,如果我们的 Client 程序处于 CLOSE_WAIT 状态的话,说明套接字是被动关闭的! 因为如果是 Server 端主动断掉当前连接的话,那么双方关闭这个 TCP 连接共需要四个 packet        Server ---> FIN ---> Client        Server <--- ACK <--- Client     时候 Server 端处于 FIN_WAIT_2 状态;而我们的程序处于 CLOSE_WAIT 状态。        Server <--- FIN <--- Client Client 发送 FIN Server Client 就置为 LAST_ACK 态。         Server ---> ACK ---> Client Server 回应了 ACK ,那么 Client 的套接字才会真正置为 CLOSED 状态。   我们的程序处于 CLOSE_WAIT 状态,而不是 LAST_ACK ,说明还没有发 FIN Server ,那么可能是在关闭连接之前还有许多数据要发送或者其他事要做,导致没有发这个 FIN packet   原因知道了,那么为什么不发 FIN 包呢,难道会在关闭己方连接前有那么多事情要做吗? 还有一个问题,为什么有数千个连接都处于这个状态呢?难道那段时间内,服务器端总是主动拆除我们的连接吗?   不管怎么样,我们必须防止类似情况再度发生! 首先,我们要防止不断开辟新的 端口 ,这可以通过设置 SO_REUSEADDR 套接字选项做到: 重用本地地址和端口 以前我总是一个端口不行,就换一个新的使用,所以导致让数千个端口进入 CLOSE_WAIT 状态。如果下次还发生这种尴尬状况,我希望加一个限定,只是当前这个端口处于 CLOSE_WAIT 状态! 在调用 sockConnected = socket(AF_INET, SOCK_STREAM, 0); 之后,我们要设置该套接字的选项来重用: /// 允许重用本地地址和端口: /// 这样的好处是,即使socket断了,调用前面的socket函数也不会占用另一个,而是始终就是一个端口 /// 这样防止socket始终连接不上,那么按照原来的做法,会不断地换端口。 int nREUSEADDR = 1; setsockopt(sockConnected,               SOL_SOCKET,               SO_REUSEADDR,               (const char*)&nREUSEADDR,               sizeof(int)); 教科书上是这么说的:这样,假如服务器关闭或者退出,造成本地地址和端口都处于 TIME_WAIT 状态,那么 SO_REUSEADDR 就显得非常有用。 也许我们无法避免被冻结在 CLOSE_WAIT 状态永远不出现,但起码可以保证不会占用新的端口。 其次,我们要设置 SO_LINGER 套接字选项: 从容关闭还是强行关闭? LINGER 是“拖延”的意思。 默认情况下 (Win2k) SO_DONTLINGER 套接字选项的是 1 SO_LINGER 选项是, linger {l_onoff 0 l_linger 0} 如果在发送数据的过程中 (send() 没有完成,还有数据没发送 ) 而调用了 closesocket() ,以前我们一般采取的措施是“从容关闭”: 因为在退出服务或者每次重新建立 socket 之前,我都会先调用 /// 先将双向的通讯关闭      shutdown(sockConnected, SD_BOTH);      /// 安全起见,每次建立Socket连接前,先把这个旧连接关闭 closesocket(sockConnected);   我们这次要这么做: 设置 SO_LINGER 为零(亦即 linger 结构中的 l_onoff 域设为非零,但 l_linger 0 ,便不用担心 closesocket 调用进入“锁定”状态(等待完成),不论是否有排队数据未发送或未被确认。这种关闭方式称为“强行关闭”,因为套接字的虚电路立即被复位,尚未发出的所有数据都会丢失。在远端的 recv() 调用都会失败,并返回 WSAECONNRESET 错误。 connect 成功建立连接之后设置该选项: linger m_sLinger; m_sLinger.l_onoff = 1;  // ( 在closesocket()调用,但是还有数据没发送完毕的时候容许逗留) m_sLinger.l_linger = 0; // ( 容许逗留的时间为0秒) setsockopt(sockConnected,          SOL_SOCKET,          SO_LINGER,          (const char*)&m_sLinger,          sizeof(linger));   总结 也许我们避免不了 CLOSE_WAIT 状态冻结的再次出现,但我们会使影响降到最小,希望那个重用套接字选项能够使得下一次重新建立连接时可以把 CLOSE_WAIT 状态踢掉。  

    最新回复(0)