解惑…关于比较高效的实时统计(实时监控),都进来看看吧!

bassice 2011-10-19 05:10:06


1. 数据采集,通过ETL工具,每分钟向sybase推送完整的数据,保存!
2. 抽取服务每分钟向sybase提取数据,库中N多表,所需提取的只有几个表(各表中的10—20个有用字段),其它可忽略!
3. 每分钟在数据库钟的抽取(Group by后,10—20个字段,3W行结果,都要花上10s左右),再插入h2内数据库存当中又需花点时间),所以PM把此优化任务交于我。在实时方面是新手啊,唉!

4. 现在的做法就是想从数据采集,这里通过socket直接向抽取服务器,推送需要的原始数据(格式是csv文件格式)。

5. 因为在统计服务这里主要做一些,(如:某个时间,某个类型为key),所对应的x列,y列,z列的和,或和了相除。(如result_1=(sum(x)); result_2=avg(x)/sum(y))。

6. 现在数据采集通过socket每分钟推送过来的行数,估计每个表100万到1000万不等,每行大小约为128个字节。1000W行的大小约为V = 128*1000W/8/1024/1024/1024=1.4G,暂时是5个表。总体积估计是 aV = 1.4*5=7G,如果这7G加入H2内存肯定不行。曾想过在socket接收到数据后作字段过滤(就像前一版通过select a,c,d from table)后再保存到h2中供统计服务使用。

7. PM的要求:
a) 每分钟的统计,滞时不能超过一分钟,就是,从socket(局域网的G级网卡,时间可先忽略)获取到csv文件,到统计的结果的时间不能大于一分钟。
(其实如果是之前在h2作sum,avg,这些统计,时间就几百ms)。

b) 考虑到兼容性,假如以后要增加字段,怎么可以使付代价最小(指代码和思路方面考虑:要求可以比较自由的增加其它表,或增加当前表字段的统计,而代码修改量最小)。
c) 一定要体现出实时性,支持大量的统计,发挥出最大的单点效率,(如果单点已到极限则可以考虑集群,又是集群,顶,这方面很菜啊。)

8. 因为我是接手这个系统,再加上我工作经验少,一年左右(我知这不是借口,但以前公司都是coder只接触过一下hadoop,hive,hbase,但都是写code的份),希望各位,无论有什么想法或者在工作当中有做过类似的,请尽量发表下意见,或给出可行的方法,思路,最好有一些是开源的项目。非常感谢啊。

9. 我的思路一直局限于原来的方法,就是一直想着如何高效果的储存进h2数据库,然后作统计),但是每次和PM聊的时候,他都说,假如我的数据量再大呢?你怎么办?假如数据插h2呢失败?你又怎办?靠,我哑巴了。技术不过关就是只有被质问的份啊,我沉默了,其实觉得他人很好说话的,很好人!为什么我这辈子,一遇到的“上司”,我就都只有敬畏之心呢?读书时怕“老师”,工作时怕“上司”,我太懂得尊敬别人了,可能的原因是我自己心里没底,在技术方面没底,没底子说话都不响,所以成了羔羊。

10. 按照PM对我不满的现状,我估计是他我换掉内存数据库,是不是可以用Hbase,类似mapreduce的方法去做?(貌似公司近期大量招这方面相关的人)说真话,我对这方面的了解不深,很浅,深度连脚眼都未浸过,悲哀啊,搞不好我要拾包袱走人了。

11. 网上亿条数据最多几十秒呢?不知道他们怎么做的。各位牛人有没思路?谢谢啊,或者给我个建议去国处哪些网站找方法?
...全文
160 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
bassice 2011-10-20
  • 打赏
  • 举报
回复
??为什么没人看一看?555555
性能测试是一个很有前途但又很没前途的职业,很有前途是因为做的好能带来高收益,能解决项目和系统的很多疑难问题,甚至是大问题(现实中有多少系统崩溃的悲惨案例,造成的损失很多时候让人承受不起),而优秀的性能测试工程师实在太稀缺了;但性能测试又很没前途,懂点软件测试的,都想拿着压力工具来试一把(然后说自己做过性能测试),实际又有多少公司常年有做不完的性能测试项目?市场需求量真有那么大吗?可以说,性能测试没前途,原因是因为我们当中很多人是半桶水,甚至连入门都不算,这样的人来做性能测试, 这项工作能有前途吗?所以,我们要改变,要让这个有价值的工作真正变成有前途(+钱途),要让性能测试不再是走过场,实打实的能解决问题,能给整个团队带来效益。讲师介绍:郑光华,网名smooth(CSDN上能看到我的博客),从事软件开发和测试工作15年,有多年的技术管理经验,现当任高级性能测试工程师 / 软件测试架构师,热爱性能测试和自动化测试工作,喜欢研究新技术,勤于总结,热于分享,希望通过培训课程输出自己的知识。课程内容:听完这个课程,你将会用不一样的视角,全面而系统的看待性能测试,从基础概念,到性能需求与设计,到性能测试工具原理,到性能监控及工具,到性能定位分析的掌握,都将会有完整而全新的认识,课程虽然不多,总共10节课(每节课25到40多分钟),但浓缩了很多性能测试知识的精华。课程重点是强调方法论和扩展思维视角(我们从思维的高度去理解和掌握性能测试,而不是从工具细节上去狭隘的了解性能测试工作),这个课程让初入性能测试的新人或是多年野蛮生长的老人,都能在思维和方法上更前进一步,为日后的项目工作提供有益帮助,在思想上向中、高级性能测试工程师看齐。现在就欢迎大家来接受洗脑吧,通过这个课程我们来完成一次性能测试知识的全面答疑和解惑。    本课程的整体知识结构如下图所示:

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧