社区
GAME,图形处理/多媒体
帖子详情
请教:离线的语音识别和语音合成
ckok
2018-09-27 09:18:37
目前在做一个项目,在离线环境下进行人机对话,中间包含有对话逻辑,但是我想基础应包括实时的离线语音识别(不是命令字,只要语音转文字即可,而且考虑倒环境因素,采用硬件滤波等方式最好)和离线的语音合成(其实就是文字转语音,TTS就是合成效果不太好),请教各位高手这方面的解决思路。
PS1 讯飞的离线模块只支持20个命令词,百度好像也只能是命令词
PS2 应用环境就是windows10而已
...全文
997
11
打赏
收藏
请教:离线的语音识别和语音合成
目前在做一个项目,在离线环境下进行人机对话,中间包含有对话逻辑,但是我想基础应包括实时的离线语音识别(不是命令字,只要语音转文字即可,而且考虑倒环境因素,采用硬件滤波等方式最好)和离线的语音合成(其实就是文字转语音,TTS就是合成效果不太好),请教各位高手这方面的解决思路。 PS1 讯飞的离线模块只支持20个命令词,百度好像也只能是命令词 PS2 应用环境就是windows10而已
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
11 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
想远行的猪
2019-03-29
打赏
举报
回复
老板,找到没有这种源码或者程序,或者软件,或者方法
lyhoo163
2018-09-30
打赏
举报
回复
建议你,购买现有的语音识别系统,让语音变成文字,再通过文字进行搜索。文字搜索就是纯字符搜索,语音搜索,比较麻烦和模糊。
日立奔腾浪潮微软松下联想
2018-09-30
打赏
举报
回复
不存在语义分析的问题,那你怎么知道“xx公里”这里要用公里,不是公理、宫里、公厘、公立、功利、功力... ?
任何正确用词都是建立在对上下文的正确理解基础之上的,你可以了解一下自然语言处理,是人工智能领域的一个重要分支。
ckok
2018-09-30
打赏
举报
回复
我这里不存在语义分析的问题,只是标准行业用语,只是在语音语句的参数有改变,比如“注意行车”,比如“XX次列车在XX站至XX站区间XX公里处的限速为XX公里”,然后需要判断是否说了这句话,并且把XX提取出来。
这样的是否有解决方案呢?
ooolinux
2018-09-30
打赏
举报
回复
便携翻译神器科大讯飞翻译机不错。
日立奔腾浪潮微软松下联想
2018-09-30
打赏
举报
回复
现在的语音识别系统(纯软件的,还有基于专用硬件的),根本没有宣传的那么高级,都需要经过长时间的人工训练才能有点实用价值,而且也是针对专用领域的,达不到非限定场景自然语音识别高准确率的程度,即便微软宣称的比速记员准确率还高的系统,实际也是有针对性训练数千小时的结果,换一个场景马上变成250。当然如果楼主的要求只是非常有限的词汇量场景,还是可以保证很高准确率的。
日立奔腾浪潮微软松下联想
2018-09-29
打赏
举报
回复
同音字、读音近似的字、多音字... 保证高正确率的情况下,语音转文字很容易?不是切割、计算特征码、数据库匹配字就可以的,还要有语义分析。说简单一点:让一个人听写一段话,都未必完全正确。
ckok
2018-09-29
打赏
举报
回复
各位,其实我只是一个离线的语音转文字 以及 文字转语音,当然语音转文字是没有特定语音指向要求这种,不太需要大数据和深度学习这些吧,我也不排除商用的,花钱都没问题
之前我用delphi做过的文字转语音,无非就是先录好字词,然后解析文字进行组合。现在都过了10年了,科技这么发达,应该不存在什么大的障碍了吧,只不过现在百度也好,讯飞也好,都更倾向于在线方式
真的没有任何推荐的商业产品或者解决方案了吗?各位高手高手高高手~急,在线等
ooolinux
2018-09-28
打赏
举报
回复
花钱应该有专业版?
lyhoo163
2018-09-28
打赏
举报
回复
这个可以是高水平的,是一个系统,需要大数据,自动学习功能。难度很大。
日立奔腾浪潮微软松下联想
2018-09-28
打赏
举报
回复
无限制的语音识别很困难(如果要保证准确率的话),如果能做到说明真正的人工智能出现了。
讯飞语音api 文字转语音生成MP3遇到的bug
项目场景: 最近做前端我遇到一个令人头疼的bug,
请教
了我们工作室的前端大佬也没能解决根本问题,最后发现是后端的问题,而且还挺难发现的。因为这个bug花了我不少时间,我也不能让自己头发白掉所以就记录一下 问题描述: 最近用vue做一个小说听书的功能,后端接口调用了讯飞语音api的接口通过阅读的章节内容转换成mp3文件并存储文件路径到对应数据库并访问文件。前端设定了如果第一次听该章节要进行文件加载存储,第二次就不用加载,然而第一次听书的时候老是报我获取的音频文件字节为0或不是MP3文件的错误,刷新页面后
沸腾新十年 | 中国语音产业江湖和科大讯飞的前半生
沸腾新十年 | 中国语音产业江湖和科大讯飞的前半生 2019-01-09 来源:左林右狸 写在前面: 这是《沸腾新十年》的第十一篇剧透文,也是2019年的第一篇剧透文,从确认选题到采编到反复修改,这篇稿子操作时间前后历经近半年。究其原因,主要是这个江湖历史更久远,中国科技日新月异,这也是左林右狸将这次写科技史的时间拉在近10年内的原因,而语音的产业化历经了20年的沉淀,在这20...
沸腾新十年 | 中国语音产业江湖和科大讯飞的前半生 ...
以语音第一股的科大讯飞为主线,描述了在这三个时代中它得到了怎样的机会和面临的挑战。 作者:J金红 写在前面: 这是《沸腾新十年》的第十一篇剧透文,也是2019年的第一篇剧透文,从确认选题到采编到反复修改,这篇稿子操作时间前后历经近半年。究其原因,主要是这个江湖历史更久远,中国科技日新月异,这也是左林右狸将这次写科技史的时间拉在近10年内...
人工智能成功识别“色情暴力”信息??…
铅笔道 2016-11-29 16:13:19人工智能 视频 直播声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。 智能语音、计算机视觉技术双管齐下。 ◆马骥是极限元科技的联合创始人,生性内敛。 文| 铅笔道 记者 赵芳馨 ?导语 苹果Siri面世后,曾一度沉寂的智能语音再次复苏,直到2014年还不见其衰退。 ...
中国语音产业的江湖史
来源 | 左林右狸(Left-Right-007)作者 | J金红01巢湖半汤温泉,中国四大名泉之一,位于安徽巢湖市东北部的汤山脚下,因一热一冷两大温泉汇聚而成冷热各半的...
GAME,图形处理/多媒体
1,185
社区成员
14,330
社区内容
发帖
与我相关
我的任务
GAME,图形处理/多媒体
Delphi GAME,图形处理/多媒体
复制链接
扫一扫
分享
社区描述
Delphi GAME,图形处理/多媒体
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章