关于word2vec中文语料使用Out of dictionary word的问题

楊小貓 2016-02-15 06:13:39
本人是刚刚接触word2vec的初学者,对Linux系统学习也是刚入门。目前查阅了网上很多前辈的帖子进行学习,text8那个例子训练没有问题。就是自己在使用word2vec进行中文语料的训练是,无论输入什么词都显示Out of dictionary word!。我不知道是因为使用中文要另配置还是自己的语料文件有问题。请问是否有前辈也遇过这种问题,各路大牛请帮帮小女ORZ~


终端显示如下:
Starting training using file 111
Vocab size: 288
Words in train file: 4924799
Alpha: 0.000005 Progress: 101.50% Words/thread/sec: 269.28k ./demo-word.sh: line 1: 7137 Segmentation fault (core dumped) ./word2vec -train 111 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 0 -iter 15

real 4m50.046s
user 4m39.193s
sys 0m1.021s
Enter word or sentence (EXIT to break): 乌克兰

Word: 乌克兰 Position in vocabulary: -1
Out of dictionary word!
...全文
2365 8 打赏 收藏 转发到动态 举报
写回复
用AI写文章
8 条回复
切换为时间正序
请发表友善的回复…
发表回复
专业打豆豆 2018-05-14
  • 打赏
  • 举报
回复
五楼正解。我之前用binary 0生成txt文件主要是为了打开查看,但是用distance去打开就无法查找。
weixin_39858881 2017-08-18
  • 打赏
  • 举报
回复
我觉得可能是你训练文本的编码格式问题,我开始用的ANSI的是不行的,后来改用utf-8成功训练完了
accumulate_zhang 2017-04-05
  • 打赏
  • 举报
回复
在源代码里面把mincount设置为1就可以了
wRonSKy317 2017-04-01
  • 打赏
  • 举报
回复
-binary 0 改成1试试
lwp1225 2016-08-08
  • 打赏
  • 举报
回复
line 1: 7137 Segmentation fault (core dumped) 程序出错了,没训练完。。。
楊小貓 2016-03-12
  • 打赏
  • 举报
回复
引用 1楼灬莫伊灬 的回复:
同样的问题呀,求解
l原先的问题,我觉得可能是因为我的语料库太小了,共现程度太低导致的。
楊小貓 2016-03-12
  • 打赏
  • 举报
回复
引用 1楼灬莫伊灬 的回复:
同样的问题呀,求解
我改用java 版的了
Mr.Gavin 2016-03-03
  • 打赏
  • 举报
回复
同样的问题呀,求解

18,777

社区成员

发帖
与我相关
我的任务
社区描述
Linux/Unix社区 专题技术讨论区
社区管理员
  • 专题技术讨论区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧