(信息获取)什么是向量空间模型(VSM)?

zhouzb889 2008-07-26 06:48:19
什么是向量空间模型(VSM)?对于下面的文档集,项权值公式为tf*idf,tf为项在文档中出现的次数,idf为包含项的文档数,写出对应的VSM矩阵,并按向量内积计算两两文档间的相似度。注:空格为分词标记,假设“的”、“是”、“有”、“对”、“一个”、“一门”和英文字母是停止词。
(1) 信息 获取 是 计算机 科学 的 一个 研究 方向。
(2) C 语言 是 计算机 本科 学生 的 一门 必修课。
(3) Web 信息 获取 对 本科 学生 的 学习 有 帮助。
(4) 信息 获取 是 计算机 程序 自动 实现 的。
...全文
1171 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
jackie__007 2009-03-31
  • 打赏
  • 举报
回复
关键是怎么构造向量空间啊?看了一大堆的VSM方面的论文,都是一样,表面的意思都懂,可是具体的构造怎么构造啊?比如该怎么选特征词、赋权重等。。谁能举个比较详细的例子啊?比如两片文章要比较其相似度,关键是向量怎么构造?该选用所有的单词作为向量的每一个维度吗?每篇文章提取的关键词是否顺序要一致才可以进行向量的内积运算啊?
金油条 2008-07-29
  • 打赏
  • 举报
回复
每个文档就是一个向量模型。后续的至于分类 相关性 求文档距离等就是好办了。
金油条 2008-07-29
  • 打赏
  • 举报
回复
首先去掉停止词。然后 统计总的有多少个词。这个就是整个向量模型。每个词就是里模型的维。
至于度那么: 就是刚才你说的总的次数,在文档的次数,词频等的运算(tf*idf公式 网上搜索一大堆)。

2,760

社区成员

发帖
与我相关
我的任务
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
  • 搜索引擎技术社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧