关于word2vec中文语料使用Out of dictionary word的问题
楊小貓 2016-02-15 06:13:39 本人是刚刚接触word2vec的初学者,对Linux系统学习也是刚入门。目前查阅了网上很多前辈的帖子进行学习,text8那个例子训练没有问题。就是自己在使用word2vec进行中文语料的训练是,无论输入什么词都显示Out of dictionary word!。我不知道是因为使用中文要另配置还是自己的语料文件有问题。请问是否有前辈也遇过这种问题,各路大牛请帮帮小女ORZ~
终端显示如下:
Starting training using file 111
Vocab size: 288
Words in train file: 4924799
Alpha: 0.000005 Progress: 101.50% Words/thread/sec: 269.28k ./demo-word.sh: line 1: 7137 Segmentation fault (core dumped) ./word2vec -train 111 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 0 -iter 15
real 4m50.046s
user 4m39.193s
sys 0m1.021s
Enter word or sentence (EXIT to break): 乌克兰
Word: 乌克兰 Position in vocabulary: -1
Out of dictionary word!