Tencent AI Lab发布的800万中文词汇求助!

yuzhouhuo2010 2019-05-30 11:12:55
腾讯公司去年发布了一个号称有800万词汇量的中文词库, 我下载下来后, 用StreamReader按行读取, 读取出来某一行如下

我们 0.238955 -0.192848 -0.211907 0.150934 0.138219 -0.142815 0.109576 0.237430 0.113313 0.212766 0.185741 -0.072593 -0.038890 -0.148697 0.113447 -0.054734 -0.119707 -0.301614 0.010661 -0.373224 0.046995 -0.040254 0.217435 0.124474 0.107320 -0.154016 -0.214472 -0.026875 0.271341 0.034196 -0.048286 0.135981 -0.159336 0.291878 0.029767 -0.080823 0.075705 0.208965 -0.393423 -0.070348 0.074219 -0.010314 0.555231 0.265382 -0.203183 -0.059019 -0.227729 -0.438141 -0.154139 -0.004460 -0.155796 -0.156204 -0.280239 0.119024 0.270675 0.015977 0.061125 0.106046 0.119620 0.016656 -0.188581 0.195843 0.322265 -0.252883 0.009620 0.211928 -0.061827 0.101208 -0.118682 -0.004104 -0.315729 -0.033734 0.019271 0.093593 -0.038363 0.271059 0.076770 0.187507 0.279387 -0.091230 0.174323 0.263890 0.146483 0.175136 0.250636 -0.268815 -0.242602 0.098451 -0.340867 -0.046590 0.143537 -0.032850 -0.112147 0.059271 0.151730 0.063198 -0.010309 -0.218437 -0.250653 -0.027172 0.099709 0.089741 -0.039581 0.168280 -0.289254 0.112675 0.038056 -0.492440 0.032809 -0.059656 -0.062112 -0.199729 -0.181568 -0.242486 -0.032274 -0.016013 -0.094967 -0.256583 -0.216345 -0.405813 0.046074 -0.383228 -0.132296 -0.141405 0.036089 0.062235 -0.009278 -0.104389 -0.148759 0.223392 -0.115293 0.018296 0.128362 -0.147406 -0.275197 -0.035063 -0.139143 0.048862 -0.120634 -0.029140 -0.286435 -0.276701 -0.221037 -0.014872 -0.111541 -0.187855 0.305286 0.113838 -0.179423 0.218023 0.150745 0.004675 -0.448954 0.051357 -0.141597 0.068116 0.264635 0.025572 0.116729 -0.159488 0.360647 -0.075746 0.090265 0.157042 0.453843 0.074740 -0.149657 0.125378 0.039159 0.095487 -0.052240 0.164203 -0.039177 0.167412 -0.008903 -0.025282 -0.074631 -0.067798 0.095912 0.279136 -0.052315 -0.155109 -0.182204 0.130321 0.056165 -0.232989 -0.186970 0.180461 -0.034499 0.131032 0.156559 0.153899 0.015085 0.019390 0.207332 0.202583 0.235376 -0.256160 -0.141990 0.137744


我知道第一位是中文词汇, 后面200个数字是所谓的维度向量, 但是不明白它们具体是什么意思, 有什么关联?, 请问有哪位大咖对此有研究, 可否解剖下?
词汇页面是: https://ai.tencent.com/ailab/nlp/embedding.html
...全文
1197 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
wanghui0380 2019-05-30
  • 打赏
  • 举报
回复
1维,2维,3维-------------N维 所以我第一个回复就是“他是一种空间距离上的归一映射”,就像我们说 “长,宽,高”假设我们把N件东西按长,宽,高 3个东西排个序,那么 “水杯”-------可以排在 长多少位,宽多少位,高多少位 的一个空间分布的点上
wanghui0380 2019-05-30
  • 打赏
  • 举报
回复
楼上说的对,通常的来说,机器学习实际上是依赖各种分类器协同判定,这些特征向量只是为分类器提供基础数据依据的。 比如一些常见的维度 “词性维度”-----名词,动词,形容词 “文法维度”-------主语,谓语,宾语 “情绪维度”---------高兴,快乐,悲伤 至于腾讯这个200维只能看腾讯自己的文档了
stherix 2019-05-30
  • 打赏
  • 举报
回复
维度的意思你总知道吧 二维和三维可能更容易明白 维度表就是每个词在维度空间的位置 对所有值取绝对值,形成的维度空间里,距离越近的点相似度就越高 而每个维度,都代表着一个特性,比如 计算机,生物,距离 等等 这个维度的绝对值越大,说明这个词最符合这个特性而接近于0的说明这个词几乎没这个特性 常见的例子就是 男人 在性别维度,就基本上会被赋值为1或者(-1)
wanghui0380 2019-05-30
  • 打赏
  • 举报
回复
这个没基础解释不了,这是特征向量 自己看把https://www.cnblogs.com/tianqizhi/p/9278790.html
引用
我知道第一位是中文词汇, 后面200个数字是所谓的维度向量, 但是不明白它们具体是什么意思, 有什么关联?, 请问有哪位大咖对此有研究, 可否解剖下?
其实这个没有关联,他只是一些空间统计归一数据,如果想知道这东西怎么用,请查 “基于向量机的自然语言处理”
yuzhouhuo2010 2019-05-30
  • 打赏
  • 举报
回复
引用 7 楼 好奇都是要学的 的回复:
[quote=引用 5 楼 yuzhouhuo2010 的回复:]
谢谢楼上2位的讲解,这个意思我大概明白了, 就是我找了很久, 腾讯的文档里面并没有对这200个维度的说明,相关的原理模型也没有描述,所以拿到这个词汇数据源,感觉也无法利用,是不是还要配合其他的代码模型才能使用呢?


这个就得看腾讯给的解释了, 不知道他们向量是否一致, 就跟通过微信公众号拿到的坐标是谷歌坐标 , 要在微信接口的转换下才能在 高德 百度地图用。 腾讯老想弄一套自己的生态链, 自己定标准。 谁知道他这个向量值具体表示的什么[/quote]
我刚刚又仔细阅读了一遍网页的内容, FAQ里面提到了这个问题
Q1: Why we encountered errors when reading Tencent AI Lab embeddings with Google’s word2vec or gensim’s Word2Vec?

Our data file is encoded in UTF-8. If you are using gensim, you can follow the scripts below to read our embeddings:

from gensim.models.word2vec import KeyedVectors
wv_from_text = KeyedVectors.load_word2vec_format(file, binary=False)

这个意思应该就是需要安装word2vec工具来使用数据源,谢谢大家了,解决方法应该是必须用word2vec 来分析
yuzhouhuo2010 2019-05-30
  • 打赏
  • 举报
回复
引用 6 楼 stherix 的回复:
[quote=引用 5 楼 yuzhouhuo2010 的回复:]
谢谢楼上2位的讲解,这个意思我大概明白了, 就是我找了很久, 腾讯的文档里面并没有对这200个维度的说明,相关的原理模型也没有描述,所以拿到这个词汇数据源,感觉也无法利用,是不是还要配合其他的代码模型才能使用呢?


这个用来对语义分析,其实不需要知道具体维度是什么

直接可以用于分词,近义词,反义词功能
比如用于搜索,智能分类等[/quote]
我是想把腾讯放出来的数据用自己的算法来分析研究, 如果按照腾讯提供的API接口直接分析数据, 并不完全是免费的, 而且具体算法也不知道, 所以对如何利用这些数据感觉到困惑
  • 打赏
  • 举报
回复
引用 5 楼 yuzhouhuo2010 的回复:
谢谢楼上2位的讲解,这个意思我大概明白了, 就是我找了很久, 腾讯的文档里面并没有对这200个维度的说明,相关的原理模型也没有描述,所以拿到这个词汇数据源,感觉也无法利用,是不是还要配合其他的代码模型才能使用呢?
这个就得看腾讯给的解释了, 不知道他们向量是否一致, 就跟通过微信公众号拿到的坐标是谷歌坐标 , 要在微信接口的转换下才能在 高德 百度地图用。 腾讯老想弄一套自己的生态链, 自己定标准。 谁知道他这个向量值具体表示的什么
stherix 2019-05-30
  • 打赏
  • 举报
回复
引用 5 楼 yuzhouhuo2010 的回复:
谢谢楼上2位的讲解,这个意思我大概明白了, 就是我找了很久, 腾讯的文档里面并没有对这200个维度的说明,相关的原理模型也没有描述,所以拿到这个词汇数据源,感觉也无法利用,是不是还要配合其他的代码模型才能使用呢?
这个用来对语义分析,其实不需要知道具体维度是什么 直接可以用于分词,近义词,反义词功能 比如用于搜索,智能分类等
yuzhouhuo2010 2019-05-30
  • 打赏
  • 举报
回复
谢谢楼上2位的讲解,这个意思我大概明白了, 就是我找了很久, 腾讯的文档里面并没有对这200个维度的说明,相关的原理模型也没有描述,所以拿到这个词汇数据源,感觉也无法利用,是不是还要配合其他的代码模型才能使用呢?

110,534

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧