POWER 8 极限算法挑战赛第二期 —— 敏感词大数据过滤

UnyieldingFaith 2014-12-08 11:35:18


活动介绍
POWER 8 极限算法挑战赛由IBM联合全球最大中文IT社区CSDN共同主办,比赛题目力求贴近实际生产环境,诚邀广大开发者参赛,利用POWER8的强劲功能提升应用性能。

活动详情:
1. 由CSDN提供博客数据与敏感词词库,参赛选手编写算法将含有敏感词的博客分离出来。
2. 参赛者可以使用任意可在Linux平台上运行的开发语言完成挑战。
3. 博客数据与敏感词词库下载地址:http://pan.baidu.com/s/1dDpLuwx
4. 用户提交算法后可获得POWER8服务器体验资格。

比赛流程
报名参赛>>下载数据>>提交算法及ID>>申请POWER8服务器资源>>在POWER平台运行并提交程序运行时间截图>>完成比赛

评选标准
提交的敏感词博客数量不少23000条
提交的敏感词博客正确率在90%以上

第一期大赛专访
专访POWER 8编程挑战赛选手侯伟婷:大数据助力多线程及并发编程技术发展
专访POWER 8编程挑战赛选手黄文超:非科班生的编程算法之路
专访POWER 8编程挑战赛选手吴亮:集众家之长, 激发算法性能极限

第一期获奖名单:
CSDN ID 准确率 评比结果
helihongzhizhuo 70.11% 80.02%
fbi312 67.23% 79.48%
isnowfy 66.72% 78.89%
...全文
2230 18 打赏 收藏 转发到动态 举报
写回复
用AI写文章
18 条回复
切换为时间正序
请发表友善的回复…
发表回复
江大河 2015-01-22
  • 打赏
  • 举报
回复
引用 17 楼 whinah 的回复:
[quote=引用 15 楼 I_love_linux_1988 的回复:] 1 、回14楼,很不错的速度。 2 、power8搞这个主要就是为了推销他的服务器,怎么样进行多核优化也是一个重点。
我那个结果是单线程跑的,多线程性能基本是线性提高的[/quote] 现在移植了没有,你那个至少应该能进前10了吧
Terark-CTO-雷鹏 2015-01-21
  • 打赏
  • 举报
回复
引用 15 楼 I_love_linux_1988 的回复:
1 、回14楼,很不错的速度。 2 、power8搞这个主要就是为了推销他的服务器,怎么样进行多核优化也是一个重点。
我那个结果是单线程跑的,多线程性能基本是线性提高的
江大河 2015-01-20
  • 打赏
  • 举报
回复
搜了几次power8处理器的资料,不懂它的性能是core I7的多少呢 我的破机子是I5的CPU
江大河 2015-01-20
  • 打赏
  • 举报
回复
1 、回14楼,很不错的速度。 2 、power8搞这个主要就是为了推销他的服务器,怎么样进行多核优化也是一个重点。
Terark-CTO-雷鹏 2015-01-19
  • 打赏
  • 举报
回复
引用 13 楼 I_love_linux_1988 的回复:
6楼请问你的机器配置怎么样,是在自己的电脑还是服务器跑的?
在我自己的机器上跑的,CPU: i7-4790,内存: 8G
江大河 2015-01-17
  • 打赏
  • 举报
回复
6楼请问你的机器配置怎么样,是在自己的电脑还是服务器跑的?
快乐领读 2014-12-25
  • 打赏
  • 举报
回复
我也无法申请服务器呀!已经提交了程序、结果和截图了。郁闷。搞了2天了。
快乐领读 2014-12-23
  • 打赏
  • 举报
回复
比赛的截止日期是?
飞哥在线 2014-12-23
  • 打赏
  • 举报
回复
我怎么申请不了服务器呢?我已提交测试程序、运行时间截图、分析结果
libingfei 2014-12-22
  • 打赏
  • 举报
回复
我使用R, 正则表达式里用[^u4e00-u9fa5] 发现26112条。
codingMozart 2014-12-18
  • 打赏
  • 举报
回复
引用 3 楼 whinah 的回复:
词库中正则表达式里面的 [^u4e00-u9fa5] 语法正确但意图完全错误,正确的写法应该是 [^\x{4e00}-\x{9fa5}]
自动机大神
libingfei 2014-12-18
  • 打赏
  • 举报
回复
词典给了,直接正则匹配就好了。算法提取特征常常需要用统计计算字频、词频表,算上提取特征文本的时间。总效率远低于,直接匹配。 神经网络、贝叶斯分类、决策树等等学习算法的本质都是基于文本特征,进行分类识别 文本特征又需要基于词频统计、分词算法、截取等手段。 提取特征的方法都意味着降低执行效率,降低信息量。 特征提取的时间消耗远大于直接正则匹配。 提取后特征由于信息损失,对分类准确率回受不同程度影响。 并且,比赛评判标准以关键词查全率为基础。 综上,本次题目实际上是设计正则匹配引擎算法,而不是用什么特征提取算法。
Terark-CTO-雷鹏 2014-12-12
  • 打赏
  • 举报
回复
这个题目没有规定输出格式,我提交了一个自定义格式的结果。 使用我的多正则匹配引擎,找到25997条,耗时4秒,如果不输出结果,仅执行匹配,耗时3.6秒。 这个时间不包括正则引擎建库的时间(0.8秒),创建出的DFA大小148K。 这个结果是按“词库”中“错误”的正则表达式得出的,按照我上面说的“正确”的正则表达式,匹配结果只有22172条。 估计这帮出题的也是按“错误”的正则表达式算的。
Terark-CTO-雷鹏 2014-12-11
  • 打赏
  • 举报
回复
词库中正则表达式里面的 [^u4e00-u9fa5] 语法正确但意图完全错误,正确的写法应该是 [^\x{4e00}-\x{9fa5}]
Terark-CTO-雷鹏 2014-12-11
  • 打赏
  • 举报
回复
词库中的正则表达式 [^u4e00-u9fa5] 语法正确但意图完全错误,正确的写法应该是 [^\x{4e00}-\x{9fa5}]
RaindaiSong 2014-12-11
  • 打赏
  • 举报
回复
都有几次提交机会啊?
u014490157 2014-12-11
  • 打赏
  • 举报
回复
第一期前几名的算法的算法在哪看
Lucosax-Yang 2014-12-10
  • 打赏
  • 举报
回复
这两个数据能稍微解释下么?我第一次参赛,里面的看不懂。。

742

社区成员

发帖
与我相关
我的任务
社区描述
该论坛主要探讨Linux系统在IBM Power平台的安装、部署、应用开发等话题,并为网友们提供自由交流的平台。
社区管理员
  • Power Linux社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧