一个比较难的问题，对音频数据有研究的进

fengge8ylf 2012-03-07 09:35:11

在录音过程中，判断说话人声音的大小，当大于某个值时就自动保存数据，当低于某个值时就认为说话结束，停止保存数据。
如果判断声音的大小呢？？？

...全文

240 26 打赏收藏转发到动态举报

写回复

用AI写文章

26 条回复

切换为时间正序

请发表友善的回复…

发表回复

黑泡泡选手 2012-03-09

打赏
举报

那段代码应该是用于直接采集音频，PCM格式的·原始音频数据

黑泡泡选手 2012-03-09

打赏
举报

如果是静音的话，把音频采样数据写成0，应该就可以了

alexander_david 2012-03-09

打赏
举报

刚才测试了上面的程序，用了一段电视播音（纯语音），噪声稍微有点大，效果还是不错的。

但是用来检测歌曲就不行了。

如果需要检测有无音频该用什么办法呢，就是说只要检测是否有声音，不管声音是语音还是音乐啥的？

郁闷。

alexander_david 2012-03-09

打赏
举报

http://download.csdn.net/detail/sjdev/2086538
从上面的网页下载了一个，编译运行了一下，似乎是可以工作的。

向立天 2012-03-09

打赏
举报

通过能谱来判断应该可以吧

alexander_david 2012-03-09

打赏
举报

在csdn的下载频道，你搜索“语音端点检测”就可以了。

fengge8ylf 2012-03-09

打赏
举报

但这个程序是检测文件的

alexander_david 2012-03-09

打赏
举报

[Quote=引用 19 楼 alexander_david 的回复:]

刚才测试了上面的程序，用了一段电视播音（纯语音），噪声稍微有点大，效果还是不错的。

但是用来检测歌曲就不行了。

如果需要检测有无音频该用什么办法呢，就是说只要检测是否有声音，不管声音是语音还是音乐啥的？

郁闷。
[/Quote]

上面说的“噪声稍微有点大”，不是说这个算法会引入噪声，而是我用的信号源就是噪声有点大，这个程序处理这个噪声有点大的素材，结果都比较令人满意，那么处理信噪比高的素材应该更不在话下了。

这个算法本身是不会引入噪声的，它对素材应该是只读的。

刚才看了一下上面的回复，忽然觉得这句话可能会引起误解，所以特别说明一下。哈哈。

我觉得普通的要求，这个程序应该可以满足了。

fengge8ylf 2012-03-09

打赏
举报

谢谢alexander_david提供的资料

fengge8ylf 2012-03-09

打赏
举报

如果全是0 就是静音
但DSOUND采集到的数字的大小就代表音量的大小？

fengge8ylf 2012-03-09

打赏
举报

(黑泡泡选手)

我的就是直接采集的音频，用DSOUND采集的

fengge8ylf 2012-03-08

打赏
举报

上面的是求一段时间的音量的平均值吧
sample[i]的大小代表音量的大小？

fengge8ylf 2012-03-08

打赏
举报

楼上的方法是求平均值吧
samples[i]值的大小就是音量的大小吗

黑泡泡选手 2012-03-08

打赏
举报



unsigned short CalcVolume(unsigned short *samples, unsigned long sampleCount)

{

    unsigned int accum = 0;

    for (unsigned long i=0; i<sampleCount; i++)

    {

        if (sample[i] >= 0)

            accum += samples[i];

        else

            accum += -samples[i];

    }

    float average = accum / (float) sampleCount;

    int volume = average;

    return (unsigned short) volume;

}

alexander_david 2012-03-08

打赏
举报

VAD
语音激活检测，就是二楼说的断点检测。

这个方面的资料很多，方法也很多，简单地通过幅度来判断是不合适的。

zhjianjun 2012-03-08

打赏
举报

错了，语音保存检测时间N2。
怎么修正不了自己的贴子？

zhjianjun 2012-03-08

打赏
举报

这个应该不难吧？
设采样缓冲区长度Tms，作为检测的时间单位。
环境声音幅度A1
静音检测时间N1
语音保存启动幅度A2
语音保存检测时间N1
连续N2个时间内幅度有超过A2，开始保存(包括前面那N1个)
连续N1个时间内幅度均低于A1，停止保存。
参数值的大小由实测来确定看效果如何。

fengge8ylf 2012-03-08

打赏
举报

没人知道吗

LiuYinChina 2012-03-08

打赏
举报

端点检测

fengge8ylf 2012-03-08

打赏
举报

这个问题有点专业了呵呵
如果谁能实现，我花钱买也可以。

原理是用一个固定的频率对模拟信号进行采样，采样后的信号在波形上看就像一串连续的幅值不一的脉冲(脉搏似的短暂起伏的电冲击)，把这些脉冲的幅值按一定精度进行量化，这些量化后的数值被连续的输出、传输、处理或...

谷歌开放大规模音频数据集 AudioSet2017-03-10 11:41来源：科技那回事关注分享加入自媒体纠错订阅导读：近日，谷歌开放了一个大规模的音频数据集 AudioSet。该数据集包含了 632 类的音频类别以及 2084320 条人工...

使用软件调节音量时如果音量之间的步进太大，声音突变，就能听到明显的爆音，尤其以单音音频更为明显，类似的问题还在声音起播、暂停、结束、快进快退时经常会出现，这个时候一般需要对音频进行渐入渐出的效果处理。...

音频模式识别是机器学习领域的一个重要研究课题，它包括音频标注、声音场景分类、音乐分类、语音情感分类和声音事件检测等任务。近年来，神经网络已被应用于解决音频模式识别问题。然而，以前的系统是建立在特定数据...

VC/MFC

16,550

社区成员

421,606

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

VC/MFC社区版块或许是CSDN最“古老”的版块了，记忆之中，与CSDN的年龄几乎差不多。随着时间的推移，MFC技术渐渐的偏离了开发主流，若干年之后的今天，当我们面对着微软的这个经典之笔，内心充满着敬意，那些曾经的记忆，可以说代表着二十年前曾经的辉煌……
向经典致敬，或许是老一代程序员内心里面难以释怀的感受。互联网大行其道的今天，我们期待着MFC技术能够恢复其曾经的辉煌，或许这个期待会永远成为一种“梦想”，或许一切皆有可能……
我们希望这个版块可以很好的适配Web时代，期待更好的互联网技术能够使得MFC技术框架得以重现活力，……

试试用AI创作助手写篇文章吧

+ 用AI写文章