突然好奇:不同的人，说同一个字，音频上的差别在哪里?

qq_40396547 2017-10-13 03:22:49

通过频谱分析，可以找出不同吗？
那么同一个人，说不同的字呢？
有没有相关的库函数,专门声音处理的?像matlab一样?
如果用arm去作个声音鉴别器，有没有毛病

...全文

1102 6 打赏收藏转发到动态举报

写回复

用AI写文章

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

河天高云淡 2017-10-16

打赏
举报

一）响度（loudness）：人主观上感觉声音的大小（俗称音量），由“振幅”（amplitude）和人离声源的距离决定，振幅越大响度越大，人和声源的距离越小，响度越大。人对声音感受的响度不是一个常数，不同的人，不同的特定频率，在不同的声压级（单位：分贝）环境下所感受响度的量级有明显不同结果。（单位：方）（二）音调（pitch）：声音的高低（高音、低音），由“频率”（frequency）决定，频率越高音调越高（频率单位Hz（hertz），赫兹rl，人耳听觉范围20～20000Hz。20Hz以下称为次声波，20000Hz以上称为超声波）例如，低音端的声音或更高的声音，如细弦声。频率是每秒经过一给定点的声波数量，它的测量单位为赫兹，是以一个名叫海里奇R.赫兹的音响奇人命名的。此人设置了一张桌子，演示频率是如何与每秒的周期相关的。 1千赫或1000赫表示每秒经过一给定点的声波有1000个周期，1万赫就是每秒钟有10000个周期，等等。（三）音色（Timbre）：又称音品，波形决定了声音的音色。声音因不同物体材料的特性而具有不同特性，音色本身是一种抽象的东西，但波形是把这个抽象直观的表现。音色不同，波形则不同。典型的音色波形有方波，锯齿波，正弦波，脉冲波等。不同的音色，通过波形，完全可以分辨的。

qq_40396547 2017-10-16

打赏
举报

引用 3 楼 tianxj001 的回复:

一不小心，闯入了一个高深技术讨论。这个技术的名字叫做：声纹识别。目前也是各国智能识别领域在做的课题，声纹自动识别模型目前可以使用的特征包括：声学特征(倒频谱)；词法特征(说话人相关的词n-gram，音素n-gram)；韵律特征(利用n-gram描述的基音和能量“姿势”)；语种、方言和口音信息；(5)通道信息(使用何种通道)；等等。在现实应用中，倒谱系数（MFCC）作为特征参数进行声纹识别，已经有不少成功应用。一个典型的例子是这样的：采样特定对象的N组音频文件作为样本，对这些样本先进行语音信号的预处理，分别进行预加重、加窗、FIR滤波、分帧，做出了波形图和频谱图，建立了代表说话人身份的语音特征模型，然后通过程序从语音数据中提取说话人的MFCC特征参数。MFCC数字化分析，度娘上应该可以找到。

还要专门去建特征模型.....太复杂了.....

qq_40396547 2017-10-16

打赏
举报

引用 2 楼 ckc 的回复:

频谱分析可以找出不同，也可以找出相同可以识别不同的人说同样的内容也可以识别说相同的内容的人是谁不同的人应该从细节上说差异极大不过会有统计规律存在

那么根据统计规律出来的，就存在误差咯,准确率大概有多少呢?这个识别是根据哪个参量？还是像二楼朋友所说的，比例?

dceacho 2017-10-14

打赏
举报

应该是各频率所在比例不同,比如声音尖的高频比重大一点

tianxj001 2017-10-14

打赏
举报

一不小心，闯入了一个高深技术讨论。这个技术的名字叫做：声纹识别。目前也是各国智能识别领域在做的课题，声纹自动识别模型目前可以使用的特征包括：声学特征(倒频谱)；词法特征(说话人相关的词n-gram，音素n-gram)；韵律特征(利用n-gram描述的基音和能量“姿势”)；语种、方言和口音信息；(5)通道信息(使用何种通道)；等等。在现实应用中，倒谱系数（MFCC）作为特征参数进行声纹识别，已经有不少成功应用。一个典型的例子是这样的：采样特定对象的N组音频文件作为样本，对这些样本先进行语音信号的预处理，分别进行预加重、加窗、FIR滤波、分帧，做出了波形图和频谱图，建立了代表说话人身份的语音特征模型，然后通过程序从语音数据中提取说话人的MFCC特征参数。MFCC数字化分析，度娘上应该可以找到。

ckc 2017-10-14