请教:离线的语音识别和语音合成

ckok 2018-09-27 09:18:37
目前在做一个项目,在离线环境下进行人机对话,中间包含有对话逻辑,但是我想基础应包括实时的离线语音识别(不是命令字,只要语音转文字即可,而且考虑倒环境因素,采用硬件滤波等方式最好)和离线的语音合成(其实就是文字转语音,TTS就是合成效果不太好),请教各位高手这方面的解决思路。
PS1 讯飞的离线模块只支持20个命令词,百度好像也只能是命令词
PS2 应用环境就是windows10而已
...全文
997 11 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
11 条回复
切换为时间正序
请发表友善的回复…
发表回复
想远行的猪 2019-03-29
  • 打赏
  • 举报
回复
老板,找到没有这种源码或者程序,或者软件,或者方法
lyhoo163 2018-09-30
  • 打赏
  • 举报
回复
建议你,购买现有的语音识别系统,让语音变成文字,再通过文字进行搜索。文字搜索就是纯字符搜索,语音搜索,比较麻烦和模糊。
  • 打赏
  • 举报
回复
不存在语义分析的问题,那你怎么知道“xx公里”这里要用公里,不是公理、宫里、公厘、公立、功利、功力... ?
任何正确用词都是建立在对上下文的正确理解基础之上的,你可以了解一下自然语言处理,是人工智能领域的一个重要分支。
ckok 2018-09-30
  • 打赏
  • 举报
回复
我这里不存在语义分析的问题,只是标准行业用语,只是在语音语句的参数有改变,比如“注意行车”,比如“XX次列车在XX站至XX站区间XX公里处的限速为XX公里”,然后需要判断是否说了这句话,并且把XX提取出来。
这样的是否有解决方案呢?
ooolinux 2018-09-30
  • 打赏
  • 举报
回复
便携翻译神器科大讯飞翻译机不错。
  • 打赏
  • 举报
回复
现在的语音识别系统(纯软件的,还有基于专用硬件的),根本没有宣传的那么高级,都需要经过长时间的人工训练才能有点实用价值,而且也是针对专用领域的,达不到非限定场景自然语音识别高准确率的程度,即便微软宣称的比速记员准确率还高的系统,实际也是有针对性训练数千小时的结果,换一个场景马上变成250。当然如果楼主的要求只是非常有限的词汇量场景,还是可以保证很高准确率的。
  • 打赏
  • 举报
回复
同音字、读音近似的字、多音字... 保证高正确率的情况下,语音转文字很容易?不是切割、计算特征码、数据库匹配字就可以的,还要有语义分析。说简单一点:让一个人听写一段话,都未必完全正确。
ckok 2018-09-29
  • 打赏
  • 举报
回复
各位,其实我只是一个离线的语音转文字 以及 文字转语音,当然语音转文字是没有特定语音指向要求这种,不太需要大数据和深度学习这些吧,我也不排除商用的,花钱都没问题
之前我用delphi做过的文字转语音,无非就是先录好字词,然后解析文字进行组合。现在都过了10年了,科技这么发达,应该不存在什么大的障碍了吧,只不过现在百度也好,讯飞也好,都更倾向于在线方式
真的没有任何推荐的商业产品或者解决方案了吗?各位高手高手高高手~急,在线等
ooolinux 2018-09-28
  • 打赏
  • 举报
回复
花钱应该有专业版?
lyhoo163 2018-09-28
  • 打赏
  • 举报
回复
这个可以是高水平的,是一个系统,需要大数据,自动学习功能。难度很大。
  • 打赏
  • 举报
回复
无限制的语音识别很困难(如果要保证准确率的话),如果能做到说明真正的人工智能出现了。

1,185

社区成员

发帖
与我相关
我的任务
社区描述
Delphi GAME,图形处理/多媒体
社区管理员
  • GAME,图形处理/多媒体社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧