突然好奇:不同的人,说同一个字,音频上的差别在哪里?

qq_40396547 2017-10-13 03:22:49
通过频谱分析,可以找出不同吗?
那么 同一个人,说不同的字呢?
有没有相关的库函数,专门 声音处理的?像matlab一样?
如果 用arm去作个声音鉴别器,有没有毛病
...全文
1102 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
河天高云淡 2017-10-16
  • 打赏
  • 举报
回复
一)响度(loudness):人主观上感觉声音的大小(俗称音量),由“振幅”(amplitude)和人离声源的距离决定,振幅越大响度越大,人和声源的距离越小,响度越大。人对声音感受的响度不是一个常数,不同的人,不同的特定频率,在不同的声压级(单位:分贝)环境下所感受响度的量级有明显不同结果。(单位:方) (二)音调(pitch):声音的高低(高音、低音),由“频率”(frequency)决定,频率越高音调越高(频率单位Hz(hertz),赫兹rl,人耳听觉范围20~20000Hz。20Hz以下称为次声波,20000Hz以上称为超声波)例如,低音端的声音或更高的声音,如细弦声。 频率是每秒经过一给定点的声波数量,它的测量单位为赫兹,是以一个名叫海里奇R.赫兹的音响奇人命名的。此人设置了一张桌子,演示频率是如何与每秒的周期相关的。 1千赫或1000赫表示每秒经过一给定点的声波有1000个周期,1万赫就是每秒钟有10000个周期,等等。 (三)音色(Timbre):又称音品,波形决定了声音的音色。声音因不同物体材料的特性而具有不同特性,音色本身是一种抽象的东西,但波形是把这个抽象直观的表现。音色不同,波形则不同。典型的音色波形有方波,锯齿波,正弦波,脉冲波等。不同的音色,通过波形,完全可以分辨的。
qq_40396547 2017-10-16
  • 打赏
  • 举报
回复
引用 3 楼 tianxj001 的回复:
一不小心,闯入了一个高深技术讨论。 这个技术的名字叫做:声纹识别。目前也是各国智能识别领域在做的课题, 声纹自动识别模型目前可以使用的特征包括: 声学特征(倒频谱); 词法特征(说话人相关的词n-gram,音素n-gram); 韵律特征(利用n-gram描述的基音和能量“姿势”); 语种、方言和口音信息;(5)通道信息(使用何种通道);等等。 在现实应用中,倒谱系数(MFCC)作为特征参数进行声纹识别,已经有不少成功应用。 一个典型的例子是这样的: 采样特定对象的N组音频文件作为样本,对这些样本先进行语音信号的预处理,分别进行预加重、加窗、FIR滤波、分帧,做出了波形图和频谱图,建立了代表说话人身份的语音特征模型,然后通过程序从语音数据中提取说话人的MFCC特征参数。MFCC数字化分析,度娘上应该可以找到。
还要专门去建 特征模型.....太复杂了.....
qq_40396547 2017-10-16
  • 打赏
  • 举报
回复
引用 2 楼 ckc 的回复:
频谱分析可以找出不同,也可以找出相同 可以识别不同的人说同样的内容 也可以识别说相同的内容的人是谁 不同的人应该从细节上说差异极大 不过会有统计规律存在
那么根据统计规律出来的,就存在误差咯,准确率大概有多少呢?这个识别 是根据 哪个参量?还是像二楼朋友所说的,比例?
dceacho 2017-10-14
  • 打赏
  • 举报
回复
应该是各频率所在比例不同,比如声音尖的高频比重大一点
tianxj001 2017-10-14
  • 打赏
  • 举报
回复
一不小心,闯入了一个高深技术讨论。 这个技术的名字叫做:声纹识别。目前也是各国智能识别领域在做的课题, 声纹自动识别模型目前可以使用的特征包括: 声学特征(倒频谱); 词法特征(说话人相关的词n-gram,音素n-gram); 韵律特征(利用n-gram描述的基音和能量“姿势”); 语种、方言和口音信息;(5)通道信息(使用何种通道);等等。 在现实应用中,倒谱系数(MFCC)作为特征参数进行声纹识别,已经有不少成功应用。 一个典型的例子是这样的: 采样特定对象的N组音频文件作为样本,对这些样本先进行语音信号的预处理,分别进行预加重、加窗、FIR滤波、分帧,做出了波形图和频谱图,建立了代表说话人身份的语音特征模型,然后通过程序从语音数据中提取说话人的MFCC特征参数。MFCC数字化分析,度娘上应该可以找到。
ckc 2017-10-14
  • 打赏
  • 举报
回复
频谱分析可以找出不同,也可以找出相同 可以识别不同的人说同样的内容 也可以识别说相同的内容的人是谁 不同的人应该从细节上说差异极大 不过会有统计规律存在
敬告:该系列的课程在抓紧录制更新中,敬请大家关注。敬告: 该系列的课程涉及:FFmpeg,WebRTC,SRS,Nginx,Darwin,Live555,等。包括:音视频、流媒体、直播、Android、视频监控28181、等。  我将带领大家一起来学习:Qt麦克风数据探测、FFmpeg解码音频数据、音频波形图、音频播放器。具体内容包括:1.Qt采集麦克风并探测数据,生成动态矩形图。2.FFMpeg解码音频数据,生成PCM数据,并绘制波形图。3.音频播放器实战。 音视频与流媒体是一门很复杂的技术,涉及的概念、原理、理论非常多,很多初学者不学 基础理论,而是直接做项目,往往会看到c/c++的代码时一头雾水,不知道代码到底是什么意思,这是为什么呢? 因为没有学习音视频和流媒体的基础理论,就比如学习英语,不学习基本单词,而是天天听英语新闻,总也听不懂。所以呢,一定要认真学习基础理论,然后再学习播放器、转码器、非编、流媒体直播、视频监控、等等。 梅老师从事音视频与流媒体行业18年;曾在永新视博、中科大洋、百度、美国Harris广播事业部等公司就职,经验丰富;曾亲手主导广电直播全套项目,精通h.264/h.265/aac,曾亲自参与百度app上的网页播放器等实战产品。目前全身心自主创业,主要聚焦音视频+流媒体行业,精通音视频加密、流媒体在线转码快编等热门产品。

27,375

社区成员

发帖
与我相关
我的任务
社区描述
硬件/嵌入开发 单片机/工控
社区管理员
  • 单片机/工控社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧