Tencent AI Lab发布的800万中文词汇求助!
腾讯公司去年发布了一个号称有800万词汇量的中文词库, 我下载下来后, 用StreamReader按行读取, 读取出来某一行如下
我们 0.238955 -0.192848 -0.211907 0.150934 0.138219 -0.142815 0.109576 0.237430 0.113313 0.212766 0.185741 -0.072593 -0.038890 -0.148697 0.113447 -0.054734 -0.119707 -0.301614 0.010661 -0.373224 0.046995 -0.040254 0.217435 0.124474 0.107320 -0.154016 -0.214472 -0.026875 0.271341 0.034196 -0.048286 0.135981 -0.159336 0.291878 0.029767 -0.080823 0.075705 0.208965 -0.393423 -0.070348 0.074219 -0.010314 0.555231 0.265382 -0.203183 -0.059019 -0.227729 -0.438141 -0.154139 -0.004460 -0.155796 -0.156204 -0.280239 0.119024 0.270675 0.015977 0.061125 0.106046 0.119620 0.016656 -0.188581 0.195843 0.322265 -0.252883 0.009620 0.211928 -0.061827 0.101208 -0.118682 -0.004104 -0.315729 -0.033734 0.019271 0.093593 -0.038363 0.271059 0.076770 0.187507 0.279387 -0.091230 0.174323 0.263890 0.146483 0.175136 0.250636 -0.268815 -0.242602 0.098451 -0.340867 -0.046590 0.143537 -0.032850 -0.112147 0.059271 0.151730 0.063198 -0.010309 -0.218437 -0.250653 -0.027172 0.099709 0.089741 -0.039581 0.168280 -0.289254 0.112675 0.038056 -0.492440 0.032809 -0.059656 -0.062112 -0.199729 -0.181568 -0.242486 -0.032274 -0.016013 -0.094967 -0.256583 -0.216345 -0.405813 0.046074 -0.383228 -0.132296 -0.141405 0.036089 0.062235 -0.009278 -0.104389 -0.148759 0.223392 -0.115293 0.018296 0.128362 -0.147406 -0.275197 -0.035063 -0.139143 0.048862 -0.120634 -0.029140 -0.286435 -0.276701 -0.221037 -0.014872 -0.111541 -0.187855 0.305286 0.113838 -0.179423 0.218023 0.150745 0.004675 -0.448954 0.051357 -0.141597 0.068116 0.264635 0.025572 0.116729 -0.159488 0.360647 -0.075746 0.090265 0.157042 0.453843 0.074740 -0.149657 0.125378 0.039159 0.095487 -0.052240 0.164203 -0.039177 0.167412 -0.008903 -0.025282 -0.074631 -0.067798 0.095912 0.279136 -0.052315 -0.155109 -0.182204 0.130321 0.056165 -0.232989 -0.186970 0.180461 -0.034499 0.131032 0.156559 0.153899 0.015085 0.019390 0.207332 0.202583 0.235376 -0.256160 -0.141990 0.137744
我知道第一位是中文词汇, 后面200个数字是所谓的维度向量, 但是不明白它们具体是什么意思, 有什么关联?, 请问有哪位大咖对此有研究, 可否解剖下?
词汇页面是: https://ai.tencent.com/ailab/nlp/embedding.html