疑难杂症:TCP服务器,长期运行后,客户端无法连接

lsgt 2017-02-08 08:06:45
加精
TCP多线程服务器,一个线程监听,来一个连接就起一个线程处理。进程中有两个这样的服务器,监听不同的端口,端口A来的是长连接,端口B除了一个长连接之外,还接受每10秒2个的短连接。

连续正常运行20多天后(故障报上来的时候是28天多一点),telnet端口B失败,connect也失败。但端口B上的长连接工作正常(数据一直在走),端口A也正常,可以telnet,也可以connect。(两个TCP服务器是相同的代码,两个实例而已,唯一的区别就是监听端口不同,且端口B上多了每10秒2个的短连接)。

重启进程后(未重启操作系统),故障消除。重启前观察到:
端口B处于listening状态,netstat无TIME_WAIT的socket及其他异常连接;
操作系统的句柄数量正常(5k左右,与重启后一致);
CPU负荷正常(4%左右,与重启后一致)

补充:
操作系统是WindowsXP;
短连接客户端未主动断开,而是被服务器超时检查断开;
程序日志默认未开启端口B的连接日志记录(量太大)。此时若打开日志,需要重启进程才生效,就不知道要等多久才能抓到了;
另外,这个程序运行在几十台相同平台上,目前有两台出现这个问题(其中一台已经重启进程,另一台未重启,故障依然),其他的暂正常。

请大家帮忙看看,问题可能出在哪儿,还需要检查些什么(还有一台还没重启进程)。
...全文
7947 48 打赏 收藏 转发到动态 举报
写回复
用AI写文章
48 条回复
切换为时间正序
请发表友善的回复…
发表回复
smwhotjay 2017-11-03
  • 打赏
  • 举报
回复
tcp有连接数限制 半开连接数限制。注册表里读取 找个工具查看下。
lnliuxing 2017-11-03
  • 打赏
  • 举报
回复
楼主 说说这个问题怎么样了
zhujinqiang 2017-03-14
  • 打赏
  • 举报
回复
楼主的问题后来解决了?
赵4老师 2017-02-24
  • 打赏
  • 举报
回复
有时不将“调用函数名字+各参数值,进入函数后各参数值,中间变量值,退出函数前准备返回的值,返回函数到调用处后函数名字+各参数值+返回值”这些信息写日志到文件中是无论如何也发现不了问题在哪里的,包括捕获各种异常、写日志到屏幕、单步或设断点或生成core或dmp文件、……这些方法都不行! 写日志到文件参考下面:
//循环向a函数每次发送200个字节长度(这个是固定的)的buffer,
//a函数中需要将循环传进来的buffer,组成240字节(也是固定的)的新buffer进行处理,
//在处理的时候每次从新buffer中取两个字节打印
#ifdef _MSC_VER
    #pragma warning(disable:4996)
#endif
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#ifdef _MSC_VER
    #include <windows.h>
    #include <process.h>
    #include <io.h>
    #define  MYVOID             void
    #define  vsnprintf          _vsnprintf
#else
    #include <unistd.h>
    #include <sys/time.h>
    #include <pthread.h>
    #define  CRITICAL_SECTION   pthread_mutex_t
    #define  MYVOID             void *
#endif
//Log{
#define MAXLOGSIZE 20000000
#define MAXLINSIZE 16000
#include <time.h>
#include <sys/timeb.h>
#include <stdarg.h>
char logfilename1[]="MyLog1.log";
char logfilename2[]="MyLog2.log";
static char logstr[MAXLINSIZE+1];
char datestr[16];
char timestr[16];
char mss[4];
CRITICAL_SECTION cs_log;
FILE *flog;
#ifdef _MSC_VER
void Lock(CRITICAL_SECTION *l) {
    EnterCriticalSection(l);
}
void Unlock(CRITICAL_SECTION *l) {
    LeaveCriticalSection(l);
}
void sleep_ms(int ms) {
    Sleep(ms);
}
#else
void Lock(CRITICAL_SECTION *l) {
    pthread_mutex_lock(l);
}
void Unlock(CRITICAL_SECTION *l) {
    pthread_mutex_unlock(l);
}
void sleep_ms(int ms) {
    usleep(ms*1000);
}
#endif
void LogV(const char *pszFmt,va_list argp) {
    struct tm *now;
    struct timeb tb;

    if (NULL==pszFmt||0==pszFmt[0]) return;
    vsnprintf(logstr,MAXLINSIZE,pszFmt,argp);
    ftime(&tb);
    now=localtime(&tb.time);
    sprintf(datestr,"%04d-%02d-%02d",now->tm_year+1900,now->tm_mon+1,now->tm_mday);
    sprintf(timestr,"%02d:%02d:%02d",now->tm_hour     ,now->tm_min  ,now->tm_sec );
    sprintf(mss,"%03d",tb.millitm);
    printf("%s %s.%s %s",datestr,timestr,mss,logstr);
    flog=fopen(logfilename1,"a");
    if (NULL!=flog) {
        fprintf(flog,"%s %s.%s %s",datestr,timestr,mss,logstr);
        if (ftell(flog)>MAXLOGSIZE) {
            fclose(flog);
            if (rename(logfilename1,logfilename2)) {
                remove(logfilename2);
                rename(logfilename1,logfilename2);
            }
        } else {
            fclose(flog);
        }
    }
}
void Log(const char *pszFmt,...) {
    va_list argp;

    Lock(&cs_log);
    va_start(argp,pszFmt);
    LogV(pszFmt,argp);
    va_end(argp);
    Unlock(&cs_log);
}
//Log}
#define ASIZE    200
#define BSIZE    240
#define CSIZE      2
char Abuf[ASIZE];
char Cbuf[CSIZE];
CRITICAL_SECTION cs_HEX;
CRITICAL_SECTION cs_BBB;
struct FIFO_BUFFER {
    int  head;
    int  tail;
    int  size;
    char data[BSIZE];
} BBB;
int No_Loop=0;
void HexDump(int cn,char *buf,int len) {
    int i,j,k;
    char binstr[80];

    Lock(&cs_HEX);
    for (i=0;i<len;i++) {
        if (0==(i%16)) {
            sprintf(binstr,"%03d %04x -",cn,i);
            sprintf(binstr,"%s %02x",binstr,(unsigned char)buf[i]);
        } else if (15==(i%16)) {
            sprintf(binstr,"%s %02x",binstr,(unsigned char)buf[i]);
            sprintf(binstr,"%s  ",binstr);
            for (j=i-15;j<=i;j++) {
                sprintf(binstr,"%s%c",binstr,('!'<buf[j]&&buf[j]<='~')?buf[j]:'.');
            }
            Log("%s\n",binstr);
        } else {
            sprintf(binstr,"%s %02x",binstr,(unsigned char)buf[i]);
        }
    }
    if (0!=(i%16)) {
        k=16-(i%16);
        for (j=0;j<k;j++) {
            sprintf(binstr,"%s   ",binstr);
        }
        sprintf(binstr,"%s  ",binstr);
        k=16-k;
        for (j=i-k;j<i;j++) {
            sprintf(binstr,"%s%c",binstr,('!'<buf[j]&&buf[j]<='~')?buf[j]:'.');
        }
        Log("%s\n",binstr);
    }
    Unlock(&cs_HEX);
}
int GetFromRBuf(int cn,CRITICAL_SECTION *cs,struct FIFO_BUFFER *fbuf,char *buf,int len) {
    int lent,len1,len2;

    lent=0;
    Lock(cs);
    if (fbuf->size>=len) {
        lent=len;
        if (fbuf->head+lent>BSIZE) {
            len1=BSIZE-fbuf->head;
            memcpy(buf     ,fbuf->data+fbuf->head,len1);
            len2=lent-len1;
            memcpy(buf+len1,fbuf->data           ,len2);
            fbuf->head=len2;
        } else {
            memcpy(buf     ,fbuf->data+fbuf->head,lent);
            fbuf->head+=lent;
        }
        fbuf->size-=lent;
    }
    Unlock(cs);
    return lent;
}
MYVOID thdB(void *pcn) {
    char        *recv_buf;
    int          recv_nbytes;
    int          cn;
    int          wc;
    int          pb;

    cn=(int)pcn;
    Log("%03d thdB              thread begin...\n",cn);
    while (1) {
        sleep_ms(10);
        recv_buf=(char *)Cbuf;
        recv_nbytes=CSIZE;
        wc=0;
        while (1) {
            pb=GetFromRBuf(cn,&cs_BBB,&BBB,recv_buf,recv_nbytes);
            if (pb) {
                Log("%03d recv %d bytes\n",cn,pb);
                HexDump(cn,recv_buf,pb);
                sleep_ms(1);
            } else {
                sleep_ms(1000);
            }
            if (No_Loop) break;//
            wc++;
            if (wc>3600) Log("%03d %d==wc>3600!\n",cn,wc);
        }
        if (No_Loop) break;//
    }
#ifndef _MSC_VER
    pthread_exit(NULL);
#endif
}
int PutToRBuf(int cn,CRITICAL_SECTION *cs,struct FIFO_BUFFER *fbuf,char *buf,int len) {
    int lent,len1,len2;

    Lock(cs);
    lent=len;
    if (fbuf->size+lent>BSIZE) {
        lent=BSIZE-fbuf->size;
    }
    if (fbuf->tail+lent>BSIZE) {
        len1=BSIZE-fbuf->tail;
        memcpy(fbuf->data+fbuf->tail,buf     ,len1);
        len2=lent-len1;
        memcpy(fbuf->data           ,buf+len1,len2);
        fbuf->tail=len2;
    } else {
        memcpy(fbuf->data+fbuf->tail,buf     ,lent);
        fbuf->tail+=lent;
    }
    fbuf->size+=lent;
    Unlock(cs);
    return lent;
}
MYVOID thdA(void *pcn) {
    char        *send_buf;
    int          send_nbytes;
    int          cn;
    int          wc;
    int           a;
    int          pa;

    cn=(int)pcn;
    Log("%03d thdA              thread begin...\n",cn);
    a=0;
    while (1) {
        sleep_ms(100);
        memset(Abuf,a,ASIZE);
        a=(a+1)%256;
        if (16==a) {No_Loop=1;break;}//去掉这句可以让程序一直循环直到按Ctrl+C或Ctrl+Break或当前目录下存在文件No_Loop
        send_buf=(char *)Abuf;
        send_nbytes=ASIZE;
        Log("%03d sending %d bytes\n",cn,send_nbytes);
        HexDump(cn,send_buf,send_nbytes);
        wc=0;
        while (1) {
            pa=PutToRBuf(cn,&cs_BBB,&BBB,send_buf,send_nbytes);
            Log("%03d sent %d bytes\n",cn,pa);
            HexDump(cn,send_buf,pa);
            send_buf+=pa;
            send_nbytes-=pa;
            if (send_nbytes<=0) break;//
            sleep_ms(1000);
            if (No_Loop) break;//
            wc++;
            if (wc>3600) Log("%03d %d==wc>3600!\n",cn,wc);
        }
        if (No_Loop) break;//
    }
#ifndef _MSC_VER
    pthread_exit(NULL);
#endif
}
int main() {
#ifdef _MSC_VER
    InitializeCriticalSection(&cs_log);
    InitializeCriticalSection(&cs_HEX);
    InitializeCriticalSection(&cs_BBB);
#else
    pthread_t threads[2];
    int threadsN;
    int rc;
    pthread_mutex_init(&cs_log,NULL);
    pthread_mutex_init(&cs_HEX,NULL);
    pthread_mutex_init(&cs_BBB,NULL);
#endif
    Log("Start===========================================================\n");

    BBB.head=0;
    BBB.tail=0;
    BBB.size=0;

#ifdef _MSC_VER
    _beginthread((void(__cdecl *)(void *))thdA,0,(void *)1);
    _beginthread((void(__cdecl *)(void *))thdB,0,(void *)2);
#else
    threadsN=0;
    rc=pthread_create(&(threads[threadsN++]),NULL,thdA,(void *)1);if (rc) Log("%d=pthread_create %d error!\n",rc,threadsN-1);
    rc=pthread_create(&(threads[threadsN++]),NULL,thdB,(void *)2);if (rc) Log("%d=pthread_create %d error!\n",rc,threadsN-1);
#endif

    if (!access("No_Loop",0)) {
        remove("No_Loop");
        if (!access("No_Loop",0)) {
            No_Loop=1;
        }
    }
    while (1) {
        sleep_ms(1000);
        if (No_Loop) break;//
        if (!access("No_Loop",0)) {
            No_Loop=1;
        }
    }
    sleep_ms(3000);
    Log("End=============================================================\n");
#ifdef _MSC_VER
    DeleteCriticalSection(&cs_BBB);
    DeleteCriticalSection(&cs_HEX);
    DeleteCriticalSection(&cs_log);
#else
    pthread_mutex_destroy(&cs_BBB);
    pthread_mutex_destroy(&cs_HEX);
    pthread_mutex_destroy(&cs_log);
#endif
    return 0;
}
zilaishuichina 2017-02-24
  • 打赏
  • 举报
回复
引用 39 楼 lsgt 的回复:
[quote=引用 31 楼 zilaishuichina 的回复:] 从lz的描述, 大胆猜测一下, 应该是短链接的逻辑, 影响到了accept 至于短链接 为什么 影响到accept : 可以从以下几个方面 逐一排查 1:lz提到telnet也失败, lz可以首先确认一下,如果在服务器本机直接telnet本机端口b,看是否同样失败 2:lz提到没有TIME_WAIT,但是有没有出现大量SYN_RECV呢?,即是否有大量链接处于半开链接的状态呢,半开连接数达到最大限制,也会导致丢弃后续的TCP连接请求。 3:直接在服务器上开抓包工具,然后在其他电脑上去telnet端口b,看tcp三次握手到哪一步:端口b是否收到了第一次握手的SYN?端口b是否收回复了SYN+ACK?端口b是否收到第三次握手的ACK?链接建立不起来,应该是3次握手未完成
谢谢! 1 服务器本地telnet端口B也失败,返回10061,就跟端口没开一样; 2 netstat -na既没有TIME_WAIT,也没有SYN_RECV等 3 这个可惜了,当时因为要恢复运行,就没有做这个就重启程序了。 程序重启到现在,一直都正常。[/quote] 我猜大概率的应该是accept队列满了(具体是不是可能需要看抓包情况), 而accept队列满,则说明,你的服务器程序里面,负责accept的那个线程出问题了,或者是死锁了,导致程序不再从accept队列取出已经建立完成的链接, 至于accept线程为什么出问题, 就要查代码了
lsgt 2017-02-24
  • 打赏
  • 举报
回复
最近想到一个可能,请大家看看有没有可能: 由于监听套接字设置了端口服务复用。如果在程序运行过程中,另外一个进程M运行起来,也监听在端口B上,并且也设置了端口复用,之后这个进程M退出了,那会不会导致现在的情况? 最近在忙别的事情,等有空了测一下这种情况。
abcligo 2017-02-23
  • 打赏
  • 举报
回复
学习一下,谢谢!!!
lsgt 2017-02-23
  • 打赏
  • 举报
回复
引用 38 楼 happyshanww 的回复:
怀疑是XP下半开连接数默认设置过小的问题,迅雷好像有类似的选项可以进行设置,也可以搜索下专门的工具。 见https://zhidao.baidu.com/question/544738895.html
最早也是怀疑这个,因为还有大概100多太Win7也在运行这个程序,没有见到上报这个错误。 但是,netstat -na没看到任何异常啊?
lsgt 2017-02-23
  • 打赏
  • 举报
回复
引用 34 楼 xiayadong 的回复:
1.不应该来一个连接请求就开一个线程,你可以测试一下,单进程内,可以开的线程数量是有限的,因此如果外部一直连接而不断开,后面的就再也连接不上了。 应该用其它I/O模型,比如IOCP,你现在用的方式应该是性能最差的一种 2.你现在测试的连接几百万次,应该是连接上就断开的方式吧,并没有保持在一定时间内或进行长时间数据传输测试,有可能如楼上面几位说的,在接收或发送数据时,资源没有完全释放,导致线程退不出去,耗尽了线程方面的资源
谢谢! 但感觉应该不是这个问题: 1 故障时,程序线程数为8,是正确的值(包括accept的线程); 2 故障时,端口A无法连接,但端口B却可以连接,而且可以响应与端口B完全一样的交互,包括创建线程,计算,接收发送数据等。(端口A与端口B上运行的同一个TCP服务器class的实例,唯一区别就是监听端口不同)
lsgt 2017-02-23
  • 打赏
  • 举报
回复
引用 31 楼 zilaishuichina 的回复:
从lz的描述, 大胆猜测一下, 应该是短链接的逻辑, 影响到了accept 至于短链接 为什么 影响到accept : 可以从以下几个方面 逐一排查 1:lz提到telnet也失败, lz可以首先确认一下,如果在服务器本机直接telnet本机端口b,看是否同样失败 2:lz提到没有TIME_WAIT,但是有没有出现大量SYN_RECV呢?,即是否有大量链接处于半开链接的状态呢,半开连接数达到最大限制,也会导致丢弃后续的TCP连接请求。 3:直接在服务器上开抓包工具,然后在其他电脑上去telnet端口b,看tcp三次握手到哪一步:端口b是否收到了第一次握手的SYN?端口b是否收回复了SYN+ACK?端口b是否收到第三次握手的ACK?链接建立不起来,应该是3次握手未完成
谢谢! 1 服务器本地telnet端口B也失败,返回10061,就跟端口没开一样; 2 netstat -na既没有TIME_WAIT,也没有SYN_RECV等 3 这个可惜了,当时因为要恢复运行,就没有做这个就重启程序了。 程序重启到现在,一直都正常。
colorsky_010 2017-02-22
  • 打赏
  • 举报
回复
线程开多了,调度占用资源
happyshanww 2017-02-22
  • 打赏
  • 举报
回复
怀疑是XP下半开连接数默认设置过小的问题,迅雷好像有类似的选项可以进行设置,也可以搜索下专门的工具。 见https://zhidao.baidu.com/question/544738895.html
xiayadong 2017-02-22
  • 打赏
  • 举报
回复
引用 36 楼 colorsky_010 的回复:
线程开多了,调度占用资源
对,线程的切换,CPU开销很大
4 Seasons 2017-02-21
  • 打赏
  • 举报
回复
学习一下,谢谢!!!
xiayadong 2017-02-20
  • 打赏
  • 举报
回复
1.不应该来一个连接请求就开一个线程,你可以测试一下,单进程内,可以开的线程数量是有限的,因此如果外部一直连接而不断开,后面的就再也连接不上了。 应该用其它I/O模型,比如IOCP,你现在用的方式应该是性能最差的一种 2.你现在测试的连接几百万次,应该是连接上就断开的方式吧,并没有保持在一定时间内或进行长时间数据传输测试,有可能如楼上面几位说的,在接收或发送数据时,资源没有完全释放,导致线程退不出去,耗尽了线程方面的资源
befree 2017-02-20
  • 打赏
  • 举报
回复
引用 6 楼 shenyi0106 的回复:
从现象上看,connect不能返回,肯定是服务端Accept没有调用导致的, 而你的实现逻辑是将Accept放在一个线程中循环调用, 根据你的实现逻辑判断,能够导致Accept停止调用的原因无外乎Accept线程死锁 或者 Accept线程退出了。 Accept线程死锁,应该是你的代码有问题,请检查你自己的代码,我们没有代码,不好给出参考意见; Accept线程退出,我个人觉得这个可能性很大,请检查Accept线程中所有API的返回值,以及所有的针对返回值的判断语句,是不是将该写continue的地方写成了return? 另外,日志系统也应该健壮起来,应该给你的日志系统分级,像错误(Error)级别的日志,应该实时输出,这有助于你发现问题
说得中
zhujinqiang 2017-02-17
  • 打赏
  • 举报
回复
楼上说抓包是个好主意 在服务器上安个抓包工具 sniffer
zilaishuichina 2017-02-17
  • 打赏
  • 举报
回复
从lz的描述, 大胆猜测一下, 应该是短链接的逻辑, 影响到了accept 至于短链接 为什么 影响到accept : 可以从以下几个方面 逐一排查 1:lz提到telnet也失败, lz可以首先确认一下,如果在服务器本机直接telnet本机端口b,看是否同样失败 2:lz提到没有TIME_WAIT,但是有没有出现大量SYN_RECV呢?,即是否有大量链接处于半开链接的状态呢,半开连接数达到最大限制,也会导致丢弃后续的TCP连接请求。 3:直接在服务器上开抓包工具,然后在其他电脑上去telnet端口b,看tcp三次握手到哪一步:端口b是否收到了第一次握手的SYN?端口b是否收回复了SYN+ACK?端口b是否收到第三次握手的ACK?链接建立不起来,应该是3次握手未完成
青蛙工作室 2017-02-14
  • 打赏
  • 举报
回复
服务器有没有定时处理一些事务的函数,如果有,重点检查一下,尤其要注意公用变量。
lsgt 2017-02-13
  • 打赏
  • 举报
回复
引用 23 楼 JDD1997 的回复:
说不定是硬件问题呢!
不排除操作系统有问题。所以打算恢复新的操作系统镜像看看,不过周期会比较长,也很难得出明确的结论。
加载更多回复(27)

18,356

社区成员

发帖
与我相关
我的任务
社区描述
VC/MFC 网络编程
c++c语言开发语言 技术论坛(原bbs)
社区管理员
  • 网络编程
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧