IBM Linux on Power算法马拉松比赛——年度总决赛题目

chinese915 2015-12-07 02:30:13


中文文本主题抽取
训练阶段:提供较大的文本语料,通过一定数据挖掘方法,训练出主题抽取的模型。
测试阶段:通过训练的模型,针对于单独的文本集合输入,能够准确的分别提取对应文本的N个关键词。

附加说明(相关技术准备):
(1)使用的算法必须是有监督的算法模型(即新文本的主题抽取是依赖于语料的训练结果);
(2)语料以及待校验的文本需要做一定的去噪处理;
(3)涉及到数据挖掘技术点:文本预处理(如上所述去噪)、中文分词技术、主题词抽取模型;
(4)关于有监督式的主题提取算法提示(不限于此):常规的TFIDF模型、LDA主题模型、基于图模型、基于深度学习算法模型等,甚至可以结合上下文、词位置、词性等做更精准的抽取,方法不限;//只需要通过语料进行模型训练,算法模型不限;

比赛相关要求
通过语料进行主题抽取、特征抽取的训练,然后实现输入校验文本集合,输出指定N个主题词、特征词。不限语言,不限思维,不限分词方式,不限算法(但必须参考语料做主题抽取),但需要做到以下几点:
(1) 在训练出模型的基础上,输入若干新的文本,能够准确的提取主题,即提取若干个关键词(例如8个);//关键词跟文本主题的符合性是评分的主要衡量点
(2) 模型训练的时间以及校验的时间尽可能的短,体现算法高效;//评分的衡量点之一
(3) 提供一个1000字左右的方案设计文档,说明方案的使用、算法模型的使用(讲述清楚算法的选择以及优化等内容)等等;

IBM Linux on Power基于强大的Power8处理器,也为开发者轻松实现算法高效执行提供了强有力的支持。最新的采用Power8处理器的Power Linux机型,其优秀的特性如SMT8、事务内存、4倍于x86的访存带宽、5倍于x86的CPU缓存等等,都是开发者提升算法性能的利器,详情请参见IBM官网

希望选手能够在比赛中充分利用基于Linux on Power的特性,最终取得好的成绩!
...全文
283 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
sven828 2015-12-23
  • 打赏
  • 举报
回复
so门徒 2015-12-15
  • 打赏
  • 举报
回复
上面的链接是中科院的做分词系统,个人感觉还挺好用。 现在的分词、语义提取很多都是基于统计学,还很难让机器理解文字,不过已经有人在做机器思维底层的设计了,这种才是解决问题的根本。
so门徒 2015-12-15
  • 打赏
  • 举报
回复
http://ictclas.nlpir.org/nlpir/#box-11
sdyjmc 2015-12-15
  • 打赏
  • 举报
回复
参赛的方案文档能分享一下吗?
chinese915 2015-12-10
  • 打赏
  • 举报
回复
马Jack 2015-12-10
  • 打赏
  • 举报
回复
顶顶顶顶顶顶
chinese915 2015-12-10
  • 打赏
  • 举报
回复
chinese915 2015-12-10
  • 打赏
  • 举报
回复
chinese915 2015-12-10
  • 打赏
  • 举报
回复

742

社区成员

发帖
与我相关
我的任务
社区描述
该论坛主要探讨Linux系统在IBM Power平台的安装、部署、应用开发等话题,并为网友们提供自由交流的平台。
社区管理员
  • Power Linux社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧