sphinx问题

TG梦了无痕 2018-11-05 11:38:00

创建索引的时候报warning错误。如下：

[root@jling ~]# /usr/local/sphinx/bin/indexer --config /usr/local/sphinx/etc/sphinx.conf --all
Sphinx 2.0.7-id64-release (r3759)
Copyright (c) 2001-2012, Andrew Aksyonoff
Copyright (c) 2008-2012, Sphinx Technologies Inc (http://sphinxsearch.com)

using config file '/usr/local/sphinx/etc/sphinx.conf'...
indexing index 'items'...
WARNING: attribute 'item_id' not found - IGNORING
WARNING: attribute 'shop_id' not found - IGNORING
collected 9147 docs, 0.7 MB
sorted 1.3 Mhits, 100.0% done
total 9147 docs, 673827 bytes
total 6.035 sec, 111643 bytes/sec, 1515.52 docs/sec
indexing index 'items_delta'...
WARNING: attribute 'item_id' not found - IGNORING
WARNING: attribute 'shop_id' not found - IGNORING
collected 0 docs, 0.0 MB
total 0 docs, 0 bytes
total 0.021 sec, 0 bytes/sec, 0.00 docs/sec
skipping non-plain index 'master'...
total 4 reads, 0.002 sec, 1295.7 kb/call avg, 0.6 msec/call avg
total 24 writes, 0.006 sec, 468.1 kb/call avg, 0.2 msec/call avg

这种属性未发现是个什么情况？可能是哪里有问题呢？

...全文

60 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

本文档介绍Sphinx4在Windows下的中文训练过程及注意事项，与本文档配套的是我自己的训练实例bergtrain和用到的软件。本文档编写日期 2013-04-23 1、为什么要训练？ sphinx4目前的版本中仅提供了英文等语音识别库。中文的库是PTM或semi类型的，在java版sphinx中无法使用。 2、Sphinx的训练指哪些内容？在Sphinx中有语言模型、声学模型等概念，如果你不想了解这些，请参考以下内容： a1、中文每个字的标准发音已经有一个较为全面的文件进行了标注这个文件就是zh_broadcastnews_utf8.dic（下称这类文件为发音字典），在sphinx网站上可以下载，我们也包含了它。下面是该文件的片断，它用类似拼音的方式标注了每个字或词的发音。昌 ch ang 昌北 ch ang b ei 昌必 ch ang b i 昌都 ch ang d u 昌赫 ch ang h e a2、需要告诉sphinx我们经常使用的字、词是哪些，它们出现的频率如何由于开放式语音识别尚难实现，所以sphinx实际上只能较好的处理相对小的语言集合。因此，针对特定的领域，告诉sphinx该领域的词汇和各词出现的频率将极大提高识别率。 a3、需要告诉sphinx每个字、词的真正读音发音字典告诉sphinx每个字的标准读音，但面对的说话人往往不会以标准读音来朗读。因此sphinx需要学习说话人的“口音”。如果训练时的读者发音比较标准，则sphinx能“举一反三”，识别其他不那么标准的读者的语音。推荐的做法是训练一些典型的口音：标准男、女声，童音，最后再考虑特定用户的口音。 3、如何准备训练内容所需的原料？需要准备两大内容：1)文本语料文件，2)语料录音文件。文本语料文件给出2.a2中需要的内容，在bergtrain的etc文件下的berginput.txt文件就是一个预料文件。它以行为单位，给出了150个中文句子。语料录音文件是根据文本语料文件，朗读它的每行/句话，保存到每一个语音文件即可。语料文件中的语句应该尽量选择领域相关的，在覆盖领域内名词的前提下，覆盖尽可能多的通用词汇。 4、训练环境及注意事项本文的训练软硬件如下：硬件：T60P笔记本，机器自带录音设备；操作系统为Win7 32位。软件：Sphinx cmuclmtk-0.7-win32.zip pocketsphinx-0.8-win32.zip sphinxbase-0.8-win32.zip sphinxtrain-1.0.8-win32.zip sphinx4-1.0beta6-bin.zip，用于编写java版的识别软件所需的库脚本执行软件 ActivePerl-5.16.3.1603-MSWin32-x86-296746.msi ActivePython-2.7.2.5-win32-x86.msi 录音和处理软件 audacity-win-2.0.3rc1.zip，可进行录音和声音文件处理（如降噪），免费软件 FairStars.zip，可进行批量录音（V3.5绿色版）文本编辑软件UltraEdit，UltraEdit-32.rar绿色版注意：文件格式语料文件必须使用UltraEdit进行编辑，在编辑后，使用文件-转换-ASCII转UTF-8(UNICODE编辑)，指定文件中的中文使用utf8编码。在保存前，设置格式如下：换行符：UNIX终束符 - LF 指定文件中的回车/换行符为编码0A的换行符格式：UTF-8 - 无BOM 每个文件的末尾必须有一个回车！这个回车将在保存时被替换为编码0A的换行符，训练脚本需要这个符号来确认文件的结束。录音文件如果你不希望去编辑训练中的配置文件，则在使用FairStars录音时作如下设定：进入菜单和对话框选项-显示录音选项-编码-WMA，设定：采样率（16000Hz）、通道（单声道）、比特率（16Kbps） 5、训练步骤下面逐步从零开始进行训练 5.1 软件环境的安装将本文档所在的文件夹解压或拷贝到d:\，即本文档路径是d:\sphinxtrain\Sphinx中文训练教程.txt 1)点击安装ActivePerl-5.16.3.1603-MSWin32-x86-296746.msi和ActivePython-2.7.2.5-win32-x86.msi； 2)解压Sphinx中除sphinx4-1.0beta6-bin.zip外的压缩文件到d:\sphinxtrain下

sphinx系统是一个拥有悠久历史的语音识别系统，李开复自称第一个sphinx是他写的。传说中是第一个实用的10数字语音系统。是由卡奈基.美隆大学研发。 sphinx3.x是基于C语言的最新版本,sphinx和 sphinx2请大家不要去研究了。 sphinx for ppc是一个在PocketPc上实现的嵌入式语音识别系统。而 sphinx4是完全用JAVA编写实现的语音识别系统，因为JAVA的特性，在平台间移植方便很多。需要注意的是 sphinx3和sphinx4不是先后的关系，而是平行的，主要区别是前一个用C语言实现，后一个用JAVA语言实现。

一熟悉整个项目的开发流程以及使用tp5二 sphinx搜索以及redis缓存使用三后期项目上线以及运维要注意的事项

Sphinx JAVA接口 Sphinx JAVAAPI

node-pocketsphinx, node.js的Pocketsphinx绑定用于 Node.js的 PocketSphinx这里 MODULE 旨在通过使用PocketSphinx在便携设备上实现基本语音识别。安装Windows 安装尚不支持。要构建这里 MODULE，你需要具有以下依赖关系：node

20,359

社区成员

19,658

社区内容

发帖

与我相关

我的任务

phpphpstorm 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章