如何求一个文本和一个主题的相关度?大家有什么好的算法吗?请大家教教我

warcao 2012-04-24 06:17:02
比如我现在的主题关键字是 “c语言”,有一个待分析的文本。如何判断这个文本是否和c语言相关度呢?
我现在唯一能想到的就是对文本进行分词,然后统计“c语言”在文本中出现的此时,除以总词数,得到相关度的值。
但这个办法不太好,请高手赐教更好的方法呀,最好是好理解的。
...全文
114 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
shuilongyin_00 2012-04-25
  • 打赏
  • 举报
回复
多增加几个tag,至于哪些tag那就只能个人观点了。

做个权值,最后再比较吧。

权值计算可能繁琐了些,如果不考虑特殊癖好,可以都设为1
warcao 2012-04-25
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 的回复:]

字符串匹配吧。匹配次数多的热度高。
[/Quote]

哦这个我倒是没想到。
恨天低 2012-04-25
  • 打赏
  • 举报
回复
字符串匹配吧。匹配次数多的热度高。
warcao 2012-04-25
  • 打赏
  • 举报
回复
有做过文本相关度判断的大侠帮帮忙呀。在线等了。
warcao 2012-04-24
  • 打赏
  • 举报
回复
文本中的内容都是对书的介绍:
txt1:
《The C Programming Language》不仅在C与C++语言界,而且在整个程序设计语言教学与研究界都是耳熟能详的经典著作。最主要的两点原因是:
  其一,这部著作自第1版问世后就一直深受广大读者欢迎,畅销不衰,是计算机学术界与教育界著书立说的重要参考文献。可以说,几乎所有的程序设计语言著作以及C与C++著作的作者都把这部著作作为参考文献。早在20年前我国就翻译出版过这部著作的第1版。
  其二,这部著作的原作者之一Dennis M. Ritchie是C语言的设计者,这样就保证了在著作中能完整、准确地体现与描述C语言的设计思想。本书讲述的程序设计方法以及各种语言成分的细节与用法具有权威性,这很有利于读者把握C语言的精髓。

txt2:
 《面向模式的软件架构.第5卷,模式与模式语言》共分3 部分,首先介绍了单个模式,详细阐述了过去累积的关于如何描述和应用模式的诸多见解,接着探究了模式之间的关系,从组织的角度说明了各个模式的领域,最后介绍了如何将模式和模式语言相结合。
   《面向模式的软件架构.第5卷,模式与模式语言》适合软件架构师和开发人员阅读。


64,643

社区成员

发帖
与我相关
我的任务
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++ 技术论坛(原bbs)
社区管理员
  • C++ 语言社区
  • encoderlee
  • paschen
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  1. 请不要发布与C++技术无关的贴子
  2. 请不要发布与技术无关的招聘、广告的帖子
  3. 请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧