一个C++性能问题，请大家帮忙找找原因！

old-six-programmer 2014-04-28 11:35:56

最近在做一个流量分析类的软件，使用C++开发，软件跑在10G网卡上，性能要求非常高。

代码结构大致可以如下描述：

报文捕获 -> 报文分发 -> 环形缓冲区 <- 报文处理

其中报文捕获和报文分发在一个线程，报文处理在另一个线程，中间以环形缓冲区连接（已经考虑同步）。

由于报文流量非常大(上Gpps)，要求报文分发一定要非常高效，当前问题就出在报文分发代码。



inline void PktReceiver::ReceivePkt(uint8 index, const PktInfo& pkt_info)

{

	ASSERT(index < pkt_fifos_.size());



    // test1：此处直接return



    // 从环形缓冲区获取可写slot

	PktInfo* fifo_pkt_info;

	if (!pkt_fifos_[index]->GetWritableItem(&fifo_pkt_info))

	{

		pkt_info.pkt_capturer->PktProcessed(pkt_info.ring_index, pkt_info.slot_index);

		return;

	}



    // test2：此处直接return



    // 写入环形缓冲区

	std::memcpy(fifo_pkt_info, &pkt_info, sizeof(PktInfo));



    // 通知环形缓冲区写如完成

	pkt_fifos_[index]->FinishedWrite();

}

问题简单描述为：
在test1测试点直接return，分发线程所在cpu的使用情况大致为：sys(60%)，usr(20%)
在test2测试点直接return，分发线程所在cpu的使用情况大致为：sys(15%)，usr(85%)

两者的CPU使用情况差别非常大，令我非常诧异。

test1和test2之间的区别就是，多了一个GetWritableItem调用，但是GetWritableItem
函数我已经内联了，并且处理液比较简单，理论上不会有产生太多额外的CPU开销，
更让我百思不得其解的是，我即使把GetWritableItem内部处理注释，直接返回false，
问题依旧。

刚开始我怀疑是否内联未生效，使用objdump查看汇编代码，发现的确已经内联。
由于汇编不是太熟悉，无法做更加深入的分析。

到底是什么原因导致一个函数调用对CPU使用会产生这么大的影响，各位大侠能否指点指点？

...全文

383 13 打赏收藏转发到动态举报

写回复

用AI写文章

13 条回复

切换为时间正序

请发表友善的回复…

发表回复

old-six-programmer 2014-04-29

打赏
举报

引用 12 楼 menzi11 的回复:

请仔细阅读关于std::atomic中的memory_order的知识!! 别被网上误导,memory_order非常重要!!

多谢提醒，我花点时间仔细研究下。另外，上午花了点时间实现了批量分发，性能提升了一倍。

FancyMouse 2014-04-28

打赏
举报

不会使用spinlock来做同步的吧

qq120848369 2014-04-28

打赏
举报

先查查有没有内存方面的bug或者线程竞争方面的bug再说。

yufengdxw 2014-04-28

打赏
举报

fifo_pkt_info 没delete的原因？

mujiok2003 2014-04-28

打赏
举报

引用

在test1测试点直接return，分发线程所在cpu的使用情况大致为：sys(60%)，usr(20%) 在test2测试点直接return，分发线程所在cpu的使用情况大致为：sys(15%)，usr(85%)

在test1点返回，用户区代码很简单，很快能完成，所以占比较少。在test2点返回呢，用户区代码变复杂了，需要占用更多的CPU时间，当让其占比就变大了。 sys的绝对时间应该相对变化不大，而usr的绝对时间差异较大。

menzi11 2014-04-28

打赏
举报

请仔细阅读关于std::atomic中的memory_order的知识!! 别被网上误导,memory_order非常重要!!

old-six-programmer 2014-04-28

打赏
举报

引用 10 楼 majia2011 的回复:

设计问题，1条条的读，本身就是错误和c++的性能无关

此话在理，事实上我也正在考虑此方案。当前已经使用的是无锁循环缓冲队列，如果无法寻找到比std::atomic更优的方案，就会着手实现批量存储，这样对std::atomic的访问估计会有几倍的减少。当然，最好的方案就是彻底不实用同步，事实上，任何同步方案都是有代价的。

majia2011 2014-04-28

打赏
举报

设计问题，1条条的读，本身就是错误和c++的性能无关

old-six-programmer 2014-04-28

打赏
举报

引用 1 楼 mujiok2003 的回复:

引用
在test1测试点直接return，分发线程所在cpu的使用情况大致为：sys(60%)，usr(20%) 在test2测试点直接return，分发线程所在cpu的使用情况大致为：sys(15%)，usr(85%)
在test1点返回，用户区代码很简单，很快能完成，所以占比较少。在test2点返回呢，用户区代码变复杂了，需要占用更多的CPU时间，当让其占比就变大了。 sys的绝对时间应该相对变化不大，而usr的绝对时间差异较大。

分析的很到位，我当初也是这么想的，但是一直不愿意相信，内联后竟然还有这么大的消耗。而且std::atomic也比较放心，认为不可能会有性能问题。逻辑上来讲，肯定是指令变化、执行时间边长导致的。

old-six-programmer 2014-04-28

打赏
举报

引用 2 楼 yufengdxw 的回复:

fifo_pkt_info 没delete的原因？

fifo_pkt_info是循环缓冲区一个slot的指针，不需要释放，用户存储的值，需要拷贝进去。

old-six-programmer 2014-04-28

打赏
举报

各位分析的比较到位，继续测试，初步发现竟然是std::atomic存在性能问题，实在没想到。当前还没想到有比std::atomic性能更好的同步机制了，我再分析分析。

赵4老师 2014-04-28

打赏
举报

仅供参考

//循环向a函数每次发送200个字节长度（这个是固定的）的buffer,
//a函数中需要将循环传进来的buffer，组成240字节（也是固定的）的新buffer进行处理，
//在处理的时候每次从新buffer中取两个字节打印
#ifdef WIN32
    #pragma warning(disable:4996)
#endif
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#ifdef WIN32
    #include <windows.h>
    #include <process.h>
    #include <io.h>
    #define  MYVOID             void
    #define  vsnprintf          _vsnprintf
#else
    #include <unistd.h>
    #include <sys/time.h>
    #include <pthread.h>
    #define  CRITICAL_SECTION   pthread_mutex_t
    #define  MYVOID             void *
#endif
//Log{
#define MAXLOGSIZE 20000000
#define MAXLINSIZE 16000
#include <time.h>
#include <sys/timeb.h>
#include <stdarg.h>
char logfilename1[]="MyLog1.log";
char logfilename2[]="MyLog2.log";
static char logstr[MAXLINSIZE+1];
char datestr[16];
char timestr[16];
char mss[4];
CRITICAL_SECTION cs_log;
FILE *flog;
#ifdef WIN32
void Lock(CRITICAL_SECTION *l) {
    EnterCriticalSection(l);
}
void Unlock(CRITICAL_SECTION *l) {
    LeaveCriticalSection(l);
}
void sleep_ms(int ms) {
    Sleep(ms);
}
#else
void Lock(CRITICAL_SECTION *l) {
    pthread_mutex_lock(l);
}
void Unlock(CRITICAL_SECTION *l) {
    pthread_mutex_unlock(l);
}
void sleep_ms(int ms) {
    usleep(ms*1000);
}
#endif
void LogV(const char *pszFmt,va_list argp) {
    struct tm *now;
    struct timeb tb;

    if (NULL==pszFmt||0==pszFmt[0]) return;
    vsnprintf(logstr,MAXLINSIZE,pszFmt,argp);
    ftime(&tb);
    now=localtime(&tb.time);
    sprintf(datestr,"%04d-%02d-%02d",now->tm_year+1900,now->tm_mon+1,now->tm_mday);
    sprintf(timestr,"%02d:%02d:%02d",now->tm_hour     ,now->tm_min  ,now->tm_sec );
    sprintf(mss,"%03d",tb.millitm);
    printf("%s %s.%s %s",datestr,timestr,mss,logstr);
    flog=fopen(logfilename1,"a");
    if (NULL!=flog) {
        fprintf(flog,"%s %s.%s %s",datestr,timestr,mss,logstr);
        if (ftell(flog)>MAXLOGSIZE) {
            fclose(flog);
            if (rename(logfilename1,logfilename2)) {
                remove(logfilename2);
                rename(logfilename1,logfilename2);
            }
        } else {
            fclose(flog);
        }
    }
}
void Log(const char *pszFmt,...) {
    va_list argp;

    Lock(&cs_log);
    va_start(argp,pszFmt);
    LogV(pszFmt,argp);
    va_end(argp);
    Unlock(&cs_log);
}
//Log}
#define ASIZE    200
#define BSIZE    240
#define CSIZE      2
char Abuf[ASIZE];
char Cbuf[CSIZE];
CRITICAL_SECTION cs_HEX ;
CRITICAL_SECTION cs_BBB ;
struct FIFO_BUFFER {
    int  head;
    int  tail;
    int  size;
    char data[BSIZE];
} BBB;
int No_Loop=0;
void HexDump(int cn,char *buf,int len) {
    int i,j,k;
    char binstr[80];

    Lock(&cs_HEX);
    for (i=0;i<len;i++) {
        if (0==(i%16)) {
            sprintf(binstr,"%03d %04x -",cn,i);
            sprintf(binstr,"%s %02x",binstr,(unsigned char)buf[i]);
        } else if (15==(i%16)) {
            sprintf(binstr,"%s %02x",binstr,(unsigned char)buf[i]);
            sprintf(binstr,"%s  ",binstr);
            for (j=i-15;j<=i;j++) {
                sprintf(binstr,"%s%c",binstr,('!'<buf[j]&&buf[j]<='~')?buf[j]:'.');
            }
            Log("%s\n",binstr);
        } else {
            sprintf(binstr,"%s %02x",binstr,(unsigned char)buf[i]);
        }
    }
    if (0!=(i%16)) {
        k=16-(i%16);
        for (j=0;j<k;j++) {
            sprintf(binstr,"%s   ",binstr);
        }
        sprintf(binstr,"%s  ",binstr);
        k=16-k;
        for (j=i-k;j<i;j++) {
            sprintf(binstr,"%s%c",binstr,('!'<buf[j]&&buf[j]<='~')?buf[j]:'.');
        }
        Log("%s\n",binstr);
    }
    Unlock(&cs_HEX);
}
int GetFromRBuf(int cn,CRITICAL_SECTION *cs,FIFO_BUFFER *fbuf,char *buf,int len) {
    int lent,len1,len2;

    lent=0;
    Lock(cs);
    if (fbuf->size>=len) {
        lent=len;
        if (fbuf->head+lent>BSIZE) {
            len1=BSIZE-fbuf->head;
            memcpy(buf     ,fbuf->data+fbuf->head,len1);
            len2=lent-len1;
            memcpy(buf+len1,fbuf->data           ,len2);
            fbuf->head=len2;
        } else {
            memcpy(buf     ,fbuf->data+fbuf->head,lent);
            fbuf->head+=lent;
        }
        fbuf->size-=lent;
    }
    Unlock(cs);
    return lent;
}
MYVOID thdB(void *pcn) {
    char        *recv_buf;
    int          recv_nbytes;
    int          cn;
    int          wc;
    int          pb;

    cn=(int)pcn;
    Log("%03d thdB              thread begin...\n",cn);
    while (1) {
        sleep_ms(10);
        recv_buf=(char *)Cbuf;
        recv_nbytes=CSIZE;
        wc=0;
        while (1) {
            pb=GetFromRBuf(cn,&cs_BBB,&BBB,recv_buf,recv_nbytes);
            if (pb) {
                Log("%03d recv %d bytes\n",cn,pb);
                HexDump(cn,recv_buf,pb);
                sleep_ms(1);
            } else {
                sleep_ms(1000);
            }
            if (No_Loop) break;//
            wc++;
            if (wc>3600) Log("%03d %d==wc>3600!\n",cn,wc);
        }
        if (No_Loop) break;//
    }
#ifndef WIN32
    pthread_exit(NULL);
#endif
}
int PutToRBuf(int cn,CRITICAL_SECTION *cs,FIFO_BUFFER *fbuf,char *buf,int len) {
    int lent,len1,len2;

    Lock(cs);
    lent=len;
    if (fbuf->size+lent>BSIZE) {
        lent=BSIZE-fbuf->size;
    }
    if (fbuf->tail+lent>BSIZE) {
        len1=BSIZE-fbuf->tail;
        memcpy(fbuf->data+fbuf->tail,buf     ,len1);
        len2=lent-len1;
        memcpy(fbuf->data           ,buf+len1,len2);
        fbuf->tail=len2;
    } else {
        memcpy(fbuf->data+fbuf->tail,buf     ,lent);
        fbuf->tail+=lent;
    }
    fbuf->size+=lent;
    Unlock(cs);
    return lent;
}
MYVOID thdA(void *pcn) {
    char        *send_buf;
    int          send_nbytes;
    int          cn;
    int          wc;
    int           a;
    int          pa;

    cn=(int)pcn;
    Log("%03d thdA              thread begin...\n",cn);
    a=0;
    while (1) {
        sleep_ms(100);
        memset(Abuf,a,ASIZE);
        a=(a+1)%256;
        if (16==a) {No_Loop=1;break;}//去掉这句可以让程序一直循环直到按Ctrl+C或Ctrl+Break或当前目录下存在文件No_Loop
        send_buf=(char *)Abuf;
        send_nbytes=ASIZE;
        Log("%03d sending %d bytes\n",cn,send_nbytes);
        HexDump(cn,send_buf,send_nbytes);
        wc=0;
        while (1) {
            pa=PutToRBuf(cn,&cs_BBB,&BBB,send_buf,send_nbytes);
            Log("%03d sent %d bytes\n",cn,pa);
            HexDump(cn,send_buf,pa);
            send_buf+=pa;
            send_nbytes-=pa;
            if (send_nbytes<=0) break;//
            sleep_ms(1000);
            if (No_Loop) break;//
            wc++;
            if (wc>3600) Log("%03d %d==wc>3600!\n",cn,wc);
        }
        if (No_Loop) break;//
    }
#ifndef WIN32
    pthread_exit(NULL);
#endif
}
int main() {
#ifdef WIN32
    InitializeCriticalSection(&cs_log);
    InitializeCriticalSection(&cs_HEX );
    InitializeCriticalSection(&cs_BBB );
#else
    pthread_t threads[2];
    int threadsN;
    int rc;
    pthread_mutex_init(&cs_log,NULL);
    pthread_mutex_init(&cs_HEX,NULL);
    pthread_mutex_init(&cs_BBB,NULL);
#endif
    Log("Start===========================================================\n");

    BBB.head=0;
    BBB.tail=0;
    BBB.size=0;

#ifdef WIN32
    _beginthread((void(__cdecl *)(void *))thdA,0,(void *)1);
    _beginthread((void(__cdecl *)(void *))thdB,0,(void *)2);
#else
    threadsN=0;
    rc=pthread_create(&(threads[threadsN++]),NULL,thdA,(void *)1);if (rc) Log("%d=pthread_create %d error!\n",rc,threadsN-1);
    rc=pthread_create(&(threads[threadsN++]),NULL,thdB,(void *)2);if (rc) Log("%d=pthread_create %d error!\n",rc,threadsN-1);
#endif

    if (!access("No_Loop",0)) {
        remove("No_Loop");
        if (!access("No_Loop",0)) {
            No_Loop=1;
        }
    }
    while (1) {
        sleep_ms(1000);
        if (No_Loop) break;//
        if (!access("No_Loop",0)) {
            No_Loop=1;
        }
    }
    sleep_ms(3000);
    Log("End=============================================================\n");
#ifdef WIN32
    DeleteCriticalSection(&cs_BBB );
    DeleteCriticalSection(&cs_HEX );
    DeleteCriticalSection(&cs_log);
#else
    pthread_mutex_destroy(&cs_BBB);
    pthread_mutex_destroy(&cs_HEX);
    pthread_mutex_destroy(&cs_log);
#endif
    return 0;
}

TheNewIpad 2014-04-28