一个C++性能问题,请大家帮忙找找原因!

zhh157 2014-04-28 11:35:56

最近在做一个流量分析类的软件,使用C++开发,软件跑在10G网卡上,性能要求非常高。

代码结构大致可以如下描述:

报文捕获 -> 报文分发 -> 环形缓冲区 <- 报文处理

其中报文捕获和报文分发在一个线程,报文处理在另一个线程,中间以环形缓冲区连接(已经考虑同步)。

由于报文流量非常大(上Gpps),要求报文分发一定要非常高效,当前问题就出在报文分发代码。


inline void PktReceiver::ReceivePkt(uint8 index, const PktInfo& pkt_info)
{
ASSERT(index < pkt_fifos_.size());

// test1:此处直接return

// 从环形缓冲区获取可写slot
PktInfo* fifo_pkt_info;
if (!pkt_fifos_[index]->GetWritableItem(&fifo_pkt_info))
{
pkt_info.pkt_capturer->PktProcessed(pkt_info.ring_index, pkt_info.slot_index);
return;
}

// test2:此处直接return

// 写入环形缓冲区
std::memcpy(fifo_pkt_info, &pkt_info, sizeof(PktInfo));

// 通知环形缓冲区写如完成
pkt_fifos_[index]->FinishedWrite();
}


问题简单描述为:
在test1测试点直接return,分发线程所在cpu的使用情况大致为:sys(60%),usr(20%)
在test2测试点直接return,分发线程所在cpu的使用情况大致为:sys(15%),usr(85%)

两者的CPU使用情况差别非常大,令我非常诧异。

test1和test2之间的区别就是,多了一个GetWritableItem调用,但是GetWritableItem
函数我已经内联了,并且处理液比较简单,理论上不会有产生太多额外的CPU开销,
更让我百思不得其解的是,我即使把GetWritableItem内部处理注释,直接返回false,
问题依旧。

刚开始我怀疑是否内联未生效,使用objdump查看汇编代码,发现的确已经内联。
由于汇编不是太熟悉,无法做更加深入的分析。

到底是什么原因导致一个函数调用对CPU使用会产生这么大的影响,各位大侠能否指点指点?


...全文
308 13 打赏 收藏 转发到动态 举报
写回复
用AI写文章
13 条回复
切换为时间正序
请发表友善的回复…
发表回复
zhh157 2014-04-29
  • 打赏
  • 举报
回复
引用 12 楼 menzi11 的回复:
请仔细阅读关于std::atomic中的memory_order的知识!! 别被网上误导,memory_order非常重要!!
多谢提醒,我花点时间仔细研究下。 另外,上午花了点时间实现了批量分发,性能提升了一倍。
FancyMouse 2014-04-28
  • 打赏
  • 举报
回复
不会使用spinlock来做同步的吧
qq120848369 2014-04-28
  • 打赏
  • 举报
回复
先查查有没有内存方面的bug或者线程竞争方面的bug再说。
yufengdxw 2014-04-28
  • 打赏
  • 举报
回复
fifo_pkt_info 没delete的原因?
mujiok2003 2014-04-28
  • 打赏
  • 举报
回复
引用
在test1测试点直接return,分发线程所在cpu的使用情况大致为:sys(60%),usr(20%) 在test2测试点直接return,分发线程所在cpu的使用情况大致为:sys(15%),usr(85%)
在test1点返回, 用户区代码很简单, 很快能完成,所以占比较少。 在test2点返回呢, 用户区代码变复杂了, 需要占用更多的CPU时间, 当让其占比就变大了。 sys的绝对时间应该相对变化不大, 而usr的绝对时间差异较大。
menzi11 2014-04-28
  • 打赏
  • 举报
回复
请仔细阅读关于std::atomic中的memory_order的知识!! 别被网上误导,memory_order非常重要!!
zhh157 2014-04-28
  • 打赏
  • 举报
回复
引用 10 楼 majia2011 的回复:
设计问题,1条条的读,本身就是错误 和c++的性能无关
此话在理,事实上我也正在考虑此方案。 当前已经使用的是无锁循环缓冲队列,如果无法寻找到比std::atomic更优的方案,就会着手实现批量存储, 这样对std::atomic的访问估计会有几倍的减少。 当然,最好的方案就是彻底不实用同步,事实上,任何同步方案都是有代价的。
majia2011 2014-04-28
  • 打赏
  • 举报
回复
设计问题,1条条的读,本身就是错误 和c++的性能无关
zhh157 2014-04-28
  • 打赏
  • 举报
回复
引用 1 楼 mujiok2003 的回复:
引用
在test1测试点直接return,分发线程所在cpu的使用情况大致为:sys(60%),usr(20%) 在test2测试点直接return,分发线程所在cpu的使用情况大致为:sys(15%),usr(85%)
在test1点返回, 用户区代码很简单, 很快能完成,所以占比较少。 在test2点返回呢, 用户区代码变复杂了, 需要占用更多的CPU时间, 当让其占比就变大了。 sys的绝对时间应该相对变化不大, 而usr的绝对时间差异较大。
分析的很到位,我当初也是这么想的,但是一直不愿意相信,内联后竟然还有这么大的消耗。 而且std::atomic也比较放心,认为不可能会有性能问题。 逻辑上来讲,肯定是指令变化、执行时间边长导致的。
zhh157 2014-04-28
  • 打赏
  • 举报
回复
引用 2 楼 yufengdxw 的回复:
fifo_pkt_info 没delete的原因?
fifo_pkt_info是循环缓冲区一个slot的指针,不需要释放,用户存储的值,需要拷贝进去。
zhh157 2014-04-28
  • 打赏
  • 举报
回复
各位分析的比较到位,继续测试,初步发现竟然是std::atomic存在性能问题,实在没想到。 当前还没想到有比std::atomic性能更好的同步机制了,我再分析分析。
赵4老师 2014-04-28
  • 打赏
  • 举报
回复
仅供参考
//循环向a函数每次发送200个字节长度(这个是固定的)的buffer,
//a函数中需要将循环传进来的buffer,组成240字节(也是固定的)的新buffer进行处理,
//在处理的时候每次从新buffer中取两个字节打印
#ifdef WIN32
    #pragma warning(disable:4996)
#endif
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#ifdef WIN32
    #include <windows.h>
    #include <process.h>
    #include <io.h>
    #define  MYVOID             void
    #define  vsnprintf          _vsnprintf
#else
    #include <unistd.h>
    #include <sys/time.h>
    #include <pthread.h>
    #define  CRITICAL_SECTION   pthread_mutex_t
    #define  MYVOID             void *
#endif
//Log{
#define MAXLOGSIZE 20000000
#define MAXLINSIZE 16000
#include <time.h>
#include <sys/timeb.h>
#include <stdarg.h>
char logfilename1[]="MyLog1.log";
char logfilename2[]="MyLog2.log";
static char logstr[MAXLINSIZE+1];
char datestr[16];
char timestr[16];
char mss[4];
CRITICAL_SECTION cs_log;
FILE *flog;
#ifdef WIN32
void Lock(CRITICAL_SECTION *l) {
    EnterCriticalSection(l);
}
void Unlock(CRITICAL_SECTION *l) {
    LeaveCriticalSection(l);
}
void sleep_ms(int ms) {
    Sleep(ms);
}
#else
void Lock(CRITICAL_SECTION *l) {
    pthread_mutex_lock(l);
}
void Unlock(CRITICAL_SECTION *l) {
    pthread_mutex_unlock(l);
}
void sleep_ms(int ms) {
    usleep(ms*1000);
}
#endif
void LogV(const char *pszFmt,va_list argp) {
    struct tm *now;
    struct timeb tb;

    if (NULL==pszFmt||0==pszFmt[0]) return;
    vsnprintf(logstr,MAXLINSIZE,pszFmt,argp);
    ftime(&tb);
    now=localtime(&tb.time);
    sprintf(datestr,"%04d-%02d-%02d",now->tm_year+1900,now->tm_mon+1,now->tm_mday);
    sprintf(timestr,"%02d:%02d:%02d",now->tm_hour     ,now->tm_min  ,now->tm_sec );
    sprintf(mss,"%03d",tb.millitm);
    printf("%s %s.%s %s",datestr,timestr,mss,logstr);
    flog=fopen(logfilename1,"a");
    if (NULL!=flog) {
        fprintf(flog,"%s %s.%s %s",datestr,timestr,mss,logstr);
        if (ftell(flog)>MAXLOGSIZE) {
            fclose(flog);
            if (rename(logfilename1,logfilename2)) {
                remove(logfilename2);
                rename(logfilename1,logfilename2);
            }
        } else {
            fclose(flog);
        }
    }
}
void Log(const char *pszFmt,...) {
    va_list argp;

    Lock(&cs_log);
    va_start(argp,pszFmt);
    LogV(pszFmt,argp);
    va_end(argp);
    Unlock(&cs_log);
}
//Log}
#define ASIZE    200
#define BSIZE    240
#define CSIZE      2
char Abuf[ASIZE];
char Cbuf[CSIZE];
CRITICAL_SECTION cs_HEX ;
CRITICAL_SECTION cs_BBB ;
struct FIFO_BUFFER {
    int  head;
    int  tail;
    int  size;
    char data[BSIZE];
} BBB;
int No_Loop=0;
void HexDump(int cn,char *buf,int len) {
    int i,j,k;
    char binstr[80];

    Lock(&cs_HEX);
    for (i=0;i<len;i++) {
        if (0==(i%16)) {
            sprintf(binstr,"%03d %04x -",cn,i);
            sprintf(binstr,"%s %02x",binstr,(unsigned char)buf[i]);
        } else if (15==(i%16)) {
            sprintf(binstr,"%s %02x",binstr,(unsigned char)buf[i]);
            sprintf(binstr,"%s  ",binstr);
            for (j=i-15;j<=i;j++) {
                sprintf(binstr,"%s%c",binstr,('!'<buf[j]&&buf[j]<='~')?buf[j]:'.');
            }
            Log("%s\n",binstr);
        } else {
            sprintf(binstr,"%s %02x",binstr,(unsigned char)buf[i]);
        }
    }
    if (0!=(i%16)) {
        k=16-(i%16);
        for (j=0;j<k;j++) {
            sprintf(binstr,"%s   ",binstr);
        }
        sprintf(binstr,"%s  ",binstr);
        k=16-k;
        for (j=i-k;j<i;j++) {
            sprintf(binstr,"%s%c",binstr,('!'<buf[j]&&buf[j]<='~')?buf[j]:'.');
        }
        Log("%s\n",binstr);
    }
    Unlock(&cs_HEX);
}
int GetFromRBuf(int cn,CRITICAL_SECTION *cs,FIFO_BUFFER *fbuf,char *buf,int len) {
    int lent,len1,len2;

    lent=0;
    Lock(cs);
    if (fbuf->size>=len) {
        lent=len;
        if (fbuf->head+lent>BSIZE) {
            len1=BSIZE-fbuf->head;
            memcpy(buf     ,fbuf->data+fbuf->head,len1);
            len2=lent-len1;
            memcpy(buf+len1,fbuf->data           ,len2);
            fbuf->head=len2;
        } else {
            memcpy(buf     ,fbuf->data+fbuf->head,lent);
            fbuf->head+=lent;
        }
        fbuf->size-=lent;
    }
    Unlock(cs);
    return lent;
}
MYVOID thdB(void *pcn) {
    char        *recv_buf;
    int          recv_nbytes;
    int          cn;
    int          wc;
    int          pb;

    cn=(int)pcn;
    Log("%03d thdB              thread begin...\n",cn);
    while (1) {
        sleep_ms(10);
        recv_buf=(char *)Cbuf;
        recv_nbytes=CSIZE;
        wc=0;
        while (1) {
            pb=GetFromRBuf(cn,&cs_BBB,&BBB,recv_buf,recv_nbytes);
            if (pb) {
                Log("%03d recv %d bytes\n",cn,pb);
                HexDump(cn,recv_buf,pb);
                sleep_ms(1);
            } else {
                sleep_ms(1000);
            }
            if (No_Loop) break;//
            wc++;
            if (wc>3600) Log("%03d %d==wc>3600!\n",cn,wc);
        }
        if (No_Loop) break;//
    }
#ifndef WIN32
    pthread_exit(NULL);
#endif
}
int PutToRBuf(int cn,CRITICAL_SECTION *cs,FIFO_BUFFER *fbuf,char *buf,int len) {
    int lent,len1,len2;

    Lock(cs);
    lent=len;
    if (fbuf->size+lent>BSIZE) {
        lent=BSIZE-fbuf->size;
    }
    if (fbuf->tail+lent>BSIZE) {
        len1=BSIZE-fbuf->tail;
        memcpy(fbuf->data+fbuf->tail,buf     ,len1);
        len2=lent-len1;
        memcpy(fbuf->data           ,buf+len1,len2);
        fbuf->tail=len2;
    } else {
        memcpy(fbuf->data+fbuf->tail,buf     ,lent);
        fbuf->tail+=lent;
    }
    fbuf->size+=lent;
    Unlock(cs);
    return lent;
}
MYVOID thdA(void *pcn) {
    char        *send_buf;
    int          send_nbytes;
    int          cn;
    int          wc;
    int           a;
    int          pa;

    cn=(int)pcn;
    Log("%03d thdA              thread begin...\n",cn);
    a=0;
    while (1) {
        sleep_ms(100);
        memset(Abuf,a,ASIZE);
        a=(a+1)%256;
        if (16==a) {No_Loop=1;break;}//去掉这句可以让程序一直循环直到按Ctrl+C或Ctrl+Break或当前目录下存在文件No_Loop
        send_buf=(char *)Abuf;
        send_nbytes=ASIZE;
        Log("%03d sending %d bytes\n",cn,send_nbytes);
        HexDump(cn,send_buf,send_nbytes);
        wc=0;
        while (1) {
            pa=PutToRBuf(cn,&cs_BBB,&BBB,send_buf,send_nbytes);
            Log("%03d sent %d bytes\n",cn,pa);
            HexDump(cn,send_buf,pa);
            send_buf+=pa;
            send_nbytes-=pa;
            if (send_nbytes<=0) break;//
            sleep_ms(1000);
            if (No_Loop) break;//
            wc++;
            if (wc>3600) Log("%03d %d==wc>3600!\n",cn,wc);
        }
        if (No_Loop) break;//
    }
#ifndef WIN32
    pthread_exit(NULL);
#endif
}
int main() {
#ifdef WIN32
    InitializeCriticalSection(&cs_log);
    InitializeCriticalSection(&cs_HEX );
    InitializeCriticalSection(&cs_BBB );
#else
    pthread_t threads[2];
    int threadsN;
    int rc;
    pthread_mutex_init(&cs_log,NULL);
    pthread_mutex_init(&cs_HEX,NULL);
    pthread_mutex_init(&cs_BBB,NULL);
#endif
    Log("Start===========================================================\n");

    BBB.head=0;
    BBB.tail=0;
    BBB.size=0;

#ifdef WIN32
    _beginthread((void(__cdecl *)(void *))thdA,0,(void *)1);
    _beginthread((void(__cdecl *)(void *))thdB,0,(void *)2);
#else
    threadsN=0;
    rc=pthread_create(&(threads[threadsN++]),NULL,thdA,(void *)1);if (rc) Log("%d=pthread_create %d error!\n",rc,threadsN-1);
    rc=pthread_create(&(threads[threadsN++]),NULL,thdB,(void *)2);if (rc) Log("%d=pthread_create %d error!\n",rc,threadsN-1);
#endif

    if (!access("No_Loop",0)) {
        remove("No_Loop");
        if (!access("No_Loop",0)) {
            No_Loop=1;
        }
    }
    while (1) {
        sleep_ms(1000);
        if (No_Loop) break;//
        if (!access("No_Loop",0)) {
            No_Loop=1;
        }
    }
    sleep_ms(3000);
    Log("End=============================================================\n");
#ifdef WIN32
    DeleteCriticalSection(&cs_BBB );
    DeleteCriticalSection(&cs_HEX );
    DeleteCriticalSection(&cs_log);
#else
    pthread_mutex_destroy(&cs_BBB);
    pthread_mutex_destroy(&cs_HEX);
    pthread_mutex_destroy(&cs_log);
#endif
    return 0;
}
TheNewIpad 2014-04-28
  • 打赏
  • 举报
回复
引用 3 楼 qq120848369 的回复:
先查查有没有内存方面的bug或者线程竞争方面的bug再说。
感觉应该就是锁之类的问题吧。 这是唯一可能导致内核CPU增加的可能。(你前边说都注释了,然后直接返回false)。

64,685

社区成员

发帖
与我相关
我的任务
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++ 技术论坛(原bbs)
社区管理员
  • C++ 语言社区
  • encoderlee
  • paschen
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  1. 请不要发布与C++技术无关的贴子
  2. 请不要发布与技术无关的招聘、广告的帖子
  3. 请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧