高分求算法:根据一篇文章的文字大致推断文章的分类,比如体育类,财金类,文化类,等等。

eduyu 2008-10-25 04:18:12
如题,给思路就成。谢谢。
...全文
293 17 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
17 条回复
切换为时间正序
请发表友善的回复…
发表回复
eduyu 2008-10-30
  • 打赏
  • 举报
回复
综合楼上各位意见,想了个办法,就是那下载的词库一条条自动查百度百科,得到该词条的分类,而后自动整理成分类,再对文章切词,并根据统计方面的算法推算文章分类。目前只能这样。
「已注销」 2008-10-30
  • 打赏
  • 举报
回复
关键字匹配来得快些
eduyu 2008-10-29
  • 打赏
  • 举报
回复
找了很多词库,都没有分类属性,最多只有词性,动词名词这样的。
楼上的兄台,哪儿去下含分类属性的词库?
dch4890164 2008-10-29
  • 打赏
  • 举报
回复
专家系统哈哈
yinzhaohui 2008-10-29
  • 打赏
  • 举报
回复
分词(使用分词库,有开源的北大那个可以)->普素贝叶斯分类器分类->完成
你在google查一下很多的,开源的也有很多
用户 昵称 2008-10-29
  • 打赏
  • 举报
回复
我倒是觉得不如直接做个程序跟搜索引擎打交道,这东西比较智能。
闪破风浪 2008-10-28
  • 打赏
  • 举报
回复
词频分析
cnzdgs 2008-10-28
  • 打赏
  • 举报
回复
如果找不到分类词库,就只能自己建立了,可以跟领导反映一下情况,请求其他人协助处理。
eduyu 2008-10-26
  • 打赏
  • 举报
回复
兄弟已经无暇看书了,工作迫在眉睫。只求大致算法,便开工。
JeffChung 2008-10-26
  • 打赏
  • 举报
回复
传说中的模糊?
wuyi8808 2008-10-26
  • 打赏
  • 举报
回复
wuyi8808 2008-10-26
  • 打赏
  • 举报
回复
这本书可能对你有帮助:
《柔性字符串匹配》

amandag 2008-10-26
  • 打赏
  • 举报
回复
1楼的思想不错啊
eduyu 2008-10-26
  • 打赏
  • 举报
回复
我开始向导的方法也是闲切词再根据词来分类。
可是网络上能下的词库好像都没有分类,自己手动把词库的词先逐一分类太累人了。
捕鲸叉 2008-10-25
  • 打赏
  • 举报
回复
词频分析
帅得不敢出门 2008-10-25
  • 打赏
  • 举报
回复
首先得把关键字与某个类型做成映射
如multimap
然后首先是查找文章标题 再对比是哪一种的.
如果判断内容的话则数据量会大一些.
wuyu637 2008-10-25
  • 打赏
  • 举报
回复
如果你有办法等到一些已经分好类的数据,比如1万篇根据文字分好类的资料,那你可以考虑各种分类算法。比如CART,SVM,这些工具基本上都有现成的代码,下一个就可用。

不过,大部分的情况下是你根本没有足够的分好类的资料。如果你有耐心,自己准备一些也是可以的。


另一种比较笨的方法是手工收集关键字,

根据一些关键字,来分类,比如一篇文章如果包含NBA,或者姚明,那么可以把它放到体育里。

包含外汇,热钱,房地产,可以放到财经类。。

这样,每次利用关键字把没有分类的材料,先做一个粗粒度的分类,
没有分类成功的,单独放一类,分类结束之后,肯定会有很多没有分类成功,再次人肉这些没有分类成功的文档,从中找出没有用到的关键字。


然后再次给所有文档归类,以此递推。。。直到符合一定的精度。。


可以包含复杂的规则来制定是否属于一个类。

19,472

社区成员

发帖
与我相关
我的任务
社区描述
VC/MFC 图形处理/算法
社区管理员
  • 图形处理/算法社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧