IBM Linux on Power算法马拉松比赛——年度总决赛题目

chinese915 2015-12-07 02:30:13

中文文本主题抽取
训练阶段：提供较大的文本语料，通过一定数据挖掘方法，训练出主题抽取的模型。
测试阶段：通过训练的模型，针对于单独的文本集合输入，能够准确的分别提取对应文本的N个关键词。

附加说明(相关技术准备)：
(1)使用的算法必须是有监督的算法模型(即新文本的主题抽取是依赖于语料的训练结果)；
(2)语料以及待校验的文本需要做一定的去噪处理；
(3)涉及到数据挖掘技术点：文本预处理(如上所述去噪)、中文分词技术、主题词抽取模型；
(4)关于有监督式的主题提取算法提示(不限于此)：常规的TFIDF模型、LDA主题模型、基于图模型、基于深度学习算法模型等，甚至可以结合上下文、词位置、词性等做更精准的抽取，方法不限；//只需要通过语料进行模型训练，算法模型不限；

比赛相关要求
通过语料进行主题抽取、特征抽取的训练，然后实现输入校验文本集合，输出指定N个主题词、特征词。不限语言，不限思维，不限分词方式，不限算法(但必须参考语料做主题抽取)，但需要做到以下几点：
(1) 在训练出模型的基础上，输入若干新的文本，能够准确的提取主题，即提取若干个关键词(例如8个)；//关键词跟文本主题的符合性是评分的主要衡量点
(2) 模型训练的时间以及校验的时间尽可能的短，体现算法高效；//评分的衡量点之一
(3) 提供一个1000字左右的方案设计文档，说明方案的使用、算法模型的使用(讲述清楚算法的选择以及优化等内容)等等；

IBM Linux on Power基于强大的Power8处理器，也为开发者轻松实现算法高效执行提供了强有力的支持。最新的采用Power8处理器的Power Linux机型，其优秀的特性如SMT8、事务内存、4倍于x86的访存带宽、5倍于x86的CPU缓存等等，都是开发者提升算法性能的利器，详情请参见IBM官网

希望选手能够在比赛中充分利用基于Linux on Power的特性，最终取得好的成绩！

...全文