如何得到声卡输出声音的电平大小

wampw2005 2005-10-06 05:12:14
如何得到声卡输出声音的电平大小,像winamp上山下跳动的电平条的值,不是系统设置的音量。
...全文
1565 15 打赏 收藏 转发到动态 举报
写回复
用AI写文章
15 条回复
切换为时间正序
请发表友善的回复…
发表回复
Featured 2005-10-17
  • 打赏
  • 举报
回复
据VC版的一个大牛说,DirectX 8.0 SDK中也有详细的源代码
Featured 2005-10-17
  • 打赏
  • 举报
回复
终于找到一种方法:
http://www.vckbase.com/document/viewdoc/?id=904
能够在声卡级别获取当前正在播放的声音。
(至于如何将声音转成电平高低,这个另外讨论。反正我这里讨论的是“黑盒”地获知当前声音)

只不过是VC写的,
但只是调用几个API而已,一定可以转成VB的。
bluesky23 2005-10-16
  • 打赏
  • 举报
回复
晕。
李白丢了墨镜 2005-10-10
  • 打赏
  • 举报
回复
大家能发表各自的意见,我很高兴。

同学们,今天课就讲到这里,,,对于刚才的问题,教师的回答是:

VB的硬件操作能力是有限的,它不能像汇编,C 语言一样那么可以很好的操作底层硬件。

同学们所讲到的,一种是:文件解压时根据文件里的声音信息来绘制波谱图是可以的。
第二种:直接获得声卡信息,绘制波谱图也是可以的。

要做这方面的编程,先得学好计算机硬件原理,和低级语言对硬件的操作。

好了,,今天我们就讲到这里了,,有什么问题,,下堂课再给同学们讲。

下课。。。。
wampw2005 2005-10-09
  • 打赏
  • 举报
回复
我认为“Featured(我握着爱情的门票静静排队……) ”说得有道理,只要是听得的声音,波形上都有显示,用麦克风说话也有。就是不知到是怎么实现的。
Featured 2005-10-08
  • 打赏
  • 举报
回复
楼上兄弟有点不明白,
你说的这些都是播放器自带的波形显示,
但是如我上面URL给出的那个小软件,
任何播放器、背景音乐都能影响波形,
肯定是底层做的
fanzai 2005-10-08
  • 打赏
  • 举报
回复
我以为楼主是要做音乐的波形显示呢~~~呵呵

因为直接抓声卡音频,抓到的不只是你放的音乐的声音啊。随便使用任何一种可以显示波形的音乐播放软件(winamp、mediaplayer等),放音乐的时候搞点别的声音出来,波形是不会被其他声音干扰的。而且即使是你在这个时候调整音量(主音量、波形音量都可以),你看到的波形也不会有任何改变。也就是说这些软件应该不是直接抓取声卡声音的,至少不是全部抓取。
至于拖动了滚动条,那些软件在拖动了滚动条的时候还不是必须要改变当前播放的数据位置(或者解压的位置)?说白了,就是那些软件是精确到每一个字节的控制着它所播放的声音,随便怎么弄,只要它出得了声,就一定可以绘制出波形。去声卡上抓什么东西对这些软件来说不是费了二遍事~~?

不过楼主好像要的不是我说的这种~~~
被楼主提到的winamp误导了~ :D
fanzai 2005-10-08
  • 打赏
  • 举报
回复
而且我都是说“好像”

冤枉阿~~ :~(
fanzai 2005-10-08
  • 打赏
  • 举报
回复
你给的软件没错啊。我好像没有说底层不能实现吧?

我只说了“那些”(指的是winamp之类的)软件,没有使用底层的方法。

为什么要说我“瞎说”?
fj182 2005-10-06
  • 打赏
  • 举报
回复
用DirectSoundCapture来抓取音频,再用DirectDraw来画波形,是否可行?我对DX不熟悉。
wampw2005 2005-10-06
  • 打赏
  • 举报
回复
我认为用vb实现起来很难,除非调用一些其他语言编译的动态库,或者是调用地层,读取主板声卡上的信息。大家有没有好的方法?
Featured 2005-10-06
  • 打赏
  • 举报
回复
我也很好奇,mark下
Featured 2005-10-06
  • 打赏
  • 举报
回复
http://www.pablosoftwaresolutions.com/example.php?id=27

看一下这个软件,你执行它后不管执行什么音乐播放程序,它就自动显示波形。准确地说是,只要你耳机里面有声音,肯定就能显示波形。不管这声音来自于音乐播放,还是网络背景音乐,还是软件自带的背景声音……
而且,以我对这个软件作者的了解,他不可能是分析声音文件显示波形的,肯定是实时来自声卡
再说,如果是分析wav文件的,那用户拖动了滚动条怎么办?
Featured 2005-10-06
  • 打赏
  • 举报
回复
瞎说
fanzai 2005-10-06
  • 打赏
  • 举报
回复
那些软件都是把声音文件解压之后,通过声音数据判断声音波形的,好像不是从声卡得到的。

一般的wav文件,你可以直接根据频率、单双声道等信息直接读取文件中的数据制作声音波形的显示效果。
Virtual Tools是一款双通道、集数字存储、示波、频谱、电压测 定、频率测定、函数信号、扫频信号、打印输出、数据输出等功 能于一体的虚拟仪器软件。提供多种参考坐标系(逻辑电平整值 等分参考坐标系、16位逻辑电平等分参考坐标系、电压整值等分 参考坐标系、分贝参考坐标系) ;提供无间断信号录制回放显示功 能、集成更友好稳定的操作界面;程序内部使用更优的信号调理 分析算法及显示输出功能。Vtools通过声卡来采集信号,达到采 样、分析的目的,用户只需按本工作室提供的方法自制一个简易的探头即可实现Vtools集成的重多功能 Vtools最大的优点是使用方便简单,价格低廉;缺点是所测试的带宽有限(只能测试10--20000Hz的信号 因此,在音频信号的测试范畴,Vtools是您最佳的选择。 [综合性能指标] 通道数目:双通道 输入电压:Vpp<1V(LineIn) 、Vpp<40mV(MacIn) 、Max Vrms<35V(使用本工作室提供的衰减器) 基本功能:时域信号显示分析、频域信号显示分析、有效电压值(RMS)测量、峰值电压测量、频率测量、 函数信号发生、扫频信号、数字存储、数据输出、打印输出等。 采 样 率:2000-200000Hz(连续可调,本指标还须依据声卡是否具有连续可调的特性) 字 长:16位 测量频段:10--20000Hz 输出频段:10--20000Hz FFT大小:1024 触发方式:通道1(左声道)自触发/上升沿触发/下降沿触发 同步方式:通道2与通道1同步 默认分辨率:1024 x 768 上述的输入输出电压和采样率可能由于声卡的不同而有所偏差,请以计算机安装的声卡为准;上述的频率 测定受声卡采样率的影响,有时可能会有偏差,请使用最匹配的采样率。个别声卡可能只有 11025Hz、 22050Hz、44100Hz等几个固定的采样率,大多数的声卡的采样频率在一定范围内是可调的(当然因声卡不 同,可能会有偏差) 。好的声卡采样率可达到200KHz。
语音识别的MATLAB实现 声控小车结题报告 小组成员:关世勇 吴庆林 一、 项目要求: 声控小车是科大华为科技制作竞赛命题组的项目,其要求是编写一个语言识别程序并适当改装一个小型机动车,使之在一个预先不知道具体形状的跑道上完全由声控来完成行驶比赛。跑道上可以有坡面,坑, 障碍等多种不利条件,小车既要具有较快的速度,也要同时具有较强的灵活性,能够克服上述条件。 二、 项目分析: 由于小车只要求完成跑道上的声控行驶,所以我们可以使用简单的单音命令来操作,如“前”、“后”、“左”、“右”等。 由于路面有各种不利条件,而且规则要求小车尽可能不越过边线,这就决定了我们的小车不能以较高的速度进行长时间的快速行驶。所以我们必须控制小车的速度和行进距离。 由于外界存在噪声干扰,所以我们必须对噪声进行处理以减小其影响。 鉴于上诉各种要求,我们决定对购买的遥控小车进行简单改造,使用PC机已有的硬件条件编写软件来完成语音的输入,采集,处理和识别,以实现对小车的控制。 三、 解决思路与模块: 整个程序大致可划分为三个模块,其结构框图如下图所示: 整个程序我们在Visual C++ 环境下编写。 四、 各模块的实现: 1 声音的采集: 将声音信号送入计算机,我们利用了声卡录音的低层操作技术,即对winmm.lib进行API调用。具体编程时这一部分被写在一个类中(Soundin类)。 在构造函数中设定包括最大采样率(11025),数据缓存(作为程序一次性读入的数据,2048),声卡本身所带的一些影响采样数据等的各种参数; 调用API函数waveInGetNumDevs(返回UNIT,参数为空)检察并打开声音输入设备,即声卡;并进而使用waveInGetDevCaps得到声卡的容量(在waveInCaps中存有该数据,对其进行地址引用,从DWORD dwFormats得到最大采样率、声道数和采样位); 创建一个叫WaveInThreadEvent的事件对象,并赋予一个Handle,叫m_WaveInEvent,开始利用线程指针m_WaveInThread调用自定义的线程WaveInThreadProc; 对结构WAVEFORMATEX中WaveInOpen开始提供录音设备。注意设备句柄的得到是通过对HWAVEIN 型数据m_WaveIn的引用。 由于通过这种方式进行录音的文件格式是.wav,所以要先设置录音长度,以及对头文件进行一些设置:包括buffer的地址为InputBuffer的初始地址,大小为录音长度的两倍,类型。使用waveInPrepareHeader为录音设备准备buffer。然后使用waveInAddBuffer函数为录音设备送出一个输入buffer。最后使用waveInStart(m_WaveIn)打开设备。 程序中WaveInThreadProc需要提出另外说明,因为通过这个线程我们可以实现采样和数据提取。该线程首先定义一个指向CsoundIn类的指针pParam,并将其宏定义为PT_S。而线程参数即为空指针pParam。使用WaitForSingleObject将录音过程设置为一旦开始就不中止(除非中止线程)。在此线程中做如下两个工作:将数据送入buffer,并将数据传入某个参数(其调用一个函数,将buffer中的数据送入该函数的参数*pt),而这些数据正是我们要利用和处理的数字化的语音信息。 2 声音的预处理: 声音信息的预处理主要包括音头和音尾的判断,声音的预加重,分帧处理和窗化处理。 A 音头音尾的判断与提取: 这是该项目的一个难点。由于我们的声音信号不是连续给出的,而且现场还有噪声的存在,所以我们必须通过适当的方法来判断采集的数据是不是我们所要的声音控制信号。这又是该项目的一个重点。若声音指令信号提取的不恰当,那么我们采样所得的数据就和我们实际的语音信号就会有很大的出入,这样不但会延迟语音识别的时效性,而且会降低对这些声音信号的识别率。对声音信号的提取,主就是确定音头、音尾的位置。常用的方法有过零率和短时距能量等几种。我们这里采用的就是过零率这个方法。首先对噪声取样,从这些噪声样本中得到噪声的上下限,将实时信号与这个门限进行比较,得到过零率。 定义过零率Zcr如下: 其中: 利用过零率的大小来判断是否有声音信号进入,若 ( 为预设的过零率值),则表示有声音信号进入,就找到了音头。在找到音头的情况下,若 ,则表示声音结束,也就找到了音尾。在环境噪声较大且比声音指令小的多的情况下可以对这个门限加一修正。音头和音尾之间的部分就是我们用以作为识别用的声音指令信号了。由于一般情况下人们所发出的单音都有一定的时间长度而大的噪声则大多是突发的,持续时间较短,所以我们可以再对所得到声音指令信号做一次筛选,若得到声音信号的长度小于预设值,就可认为是噪声干扰,舍弃;若得到声音信号的常到大于预设值,则将其作为有用信号存储。实验表明,利用过零率和预设长度相结合起来提取声音指令信号的方法很有效的。 B 语音信号的预加重: 我们所采用的预加重的方法是较为常用的网络: 传递函数为: 得到的信号为: 预加重的目的在于滤除低频干扰,尤其是50Hz或60Hz的工频干扰,将对于语音识别更为有用的高频部分的频谱进一步提升。在计算短时能量之前应用该滤波器,还可以起到消除直流漂移、抑制随机噪声和提升清音部分能量的效果。 C 分帧处理 在计算各个系数之前要先将语音信号作分帧处理。语音信号是瞬时变化的,但在10~20ms内是相对稳定的,而我们设定的采样频率为11025所以我们对预处理后的语音信号S1(n)以300点为一帧进行处理,帧移为100个采样点。 (N=300) D 窗化处理: 为了避免矩形窗化时对LPC系数在端点的误差,我们采用了汉明窗函数来进行窗化。即: 其中: 3 语音数据的特征提取: 语音信号的特征有多种度量标准,我们采用的是比较常用的倒谱特征。 语音信号是一种典型的时变信号,然而如果把观察时间缩短到几十毫秒,则可以得到一系列近似稳定的信号。人的发音器官可以用若干段前后连接的声管进行模拟,这就是所谓的声管模型。全极点线性预测模型(LPC)可以对声管模型进行很好的描述,每段声管对应一个LPC模型的极点。一般情况下,极点的个数在12-16个之间就可以足够清晰地描述语音信号的特征了。 语音信号经过预处理,它的每个样值均可由过去若干个样值的线性组合来逼近,同时可以采用使实际语音抽样与线性预测抽样之间的均方差最小的方式,来解出一组预测的系数 。这就是LPC所提取出来的信号的初始特征。 预测值时域表达式为: 其中, 为加权系数,即LPC系数。预测的误差为: 使 在均方误差最小的条件下,可求得唯一的 ,此过程即为LPC分析过程。 这里采用的是Levinson-Durbin法。由上面的式子有: 其中, 为待分析与引信号的自相关序列: 因此:Levinson-Durbin算法为: 1. 初始化: 2. 迭代计算:对于 3. 最后就算: 以上式中的 为反射系数。 ; 为最小预测误差,随着阶数的增加而减少; 为模型增益常量。 在语音识别系统中,很少直接使用LPC系数,而是由LPC系数推导出另一种参数:线性预测倒谱系数(LPCC)。倒谱实际上是一种同态信号处理方法,标准的倒谱系数计算流程需要进行FFT变换、对数操作和相位校正等步骤,预算比较复杂。在实际计算中,他不是由原始信号x(n)得到,而是由LPC系数 得到的。 LPC系数算出后,就可以直接进行倒谱系数 的计算,其迭代算法如下: 1.初始化: 2.迭代计算: 这里C(0)实际上就是直流分量,在识别中通常是不用的,也不去计算。 综合考虑识别误差和识别速度的影响,我们在计算LPC 时,LPC系数的阶数Q值取为8,而LPCC系数的阶数P值取为12。 4 DTW 算法: 语音识别程序的核心部分即采用合适的算法来识别不同的语音信号,在特定人语音识别算法中,对于孤立词语语音识别而言,最为简单的方法是采用DTW(Dynamic Time Warping,动态时间弯折)算法,该算法基于动态规划)(DP)的思想,解决了发音长短不一的模本匹配问题,是语音识别中出现较早、较为经典的一种算法。我们这里采用的就是DTW算法。 我们用R表示已存的参考模板,T表示待识别的测试模板,R(1),R(2) ,…,R(m),T(1),T(2),…,T(n)分别表示参考模板和测试模板中的各语音帧,d[T(n),R(m)]表示这两帧特征矢量之间的距离(DTW算法中通常采用欧氏距离)。为了比较R和T之间的相似度,可以计算他们之间的距离D[T,R],距离越小则相似度越高。D[T,R]的计算通常采用的是动态规划的方法。 将R和T的各个帧号分别在直角坐标系的横轴和纵轴上标出,则如下图可得到一个网格,网格中各点表示R和T中的一帧的交汇点。DP算法可以归结为寻找一条通过此网格中若干格点的路径,使得沿路径的累积距离达到最小值。 为了使路径不至于过分倾斜,可以约束斜率在0.5-2范围内,如果路径已经通过了格点( ),那么下一个通过的格点( )只能是下列三种情况之一: 搜索最佳路径的方法如下: 搜索从( )开始,网格中任意一点只可能有一条路径通过。对于( ),其可达到该格点的前一格点之可能是 ( ),( ),( ),那么( )一定选择这3个距离中的最小者所对应的格点作为其前续格点。若用( )代表此格点,并将通过该格点的路径延伸而通过( ),这时此路径的累积距离为: 其中的 由下式决定: 这样可以从初始点出发依次搜索直到搜索到终点 便可得到最佳路径。 五、整个系统的软件流程图: 见右图。 六、硬件 用四个c1108型三极管来控制小车遥控手柄的前、后、左、右触点的通断。从计算机的并口引出四根信号线,与三极管相连,与前、后、左、右一一对应。若判断出指令信号后,则相应的信号线上输出电平,该电路导通,发送无线信号。若无指令,则信号线上输出电平,电路断路,不发送无线信号。电路示意图如下:(由于四条线路基本是一致的,这里只画出了其中的一根信号线与外电路的连接示意图) 七、实现功能与技术指标: 1. 软件上可以识别前、后、左、右、停等语音指令,并发出相应的控制信号。 2. 硬件上可以实时的收发无限信号,并控制小 车作相应的动作。 3. 语音识别正确率大于95%,从发出语音指令 到执行该指令的延时小于100ms。 八、与原设计方案的比较: 我们的整个方案基本是按照原设计方案来进行的,各项指标也基本达到了预定目标。 九、经费使用情况: 主要分为两部分: 第一, 由于我们都没有学过语音识别方面的知识,所以一开始我们就买了一些参考书和资料。 第二, 在软件部分初步成型后,在对小车进行改装时购买了一些电子元器件以及其他一些工具。 十、致谢: 感谢华为研究所为我们提供这样好的锻炼机会,我们从中学到了很多书本上学不到的知识。 感谢铁伟涛同学为我们提供方案支持。 感谢我的导师魏衡华老师和314实验室的所有负责人为我们提供PC机和其它硬件条件以及方便的实验环境。 感谢所有的评委老师在开题和中期评审中给我们提供很多宝贵的意见。

809

社区成员

发帖
与我相关
我的任务
社区描述
VB 多媒体
社区管理员
  • 多媒体
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧