waveInOpen的参数问题

zhuojuedian2986 2016-08-18 11:16:00

waveform.wFormatTag=WAVE_FORMAT_PCM; //设置波形的格式 PCM格式
waveform.nChannels=1; //设置音频文件的通道数量
waveform.nSamplesPerSec=8000; //设置每个声道播放和记录时的样本频率
waveform.nAvgBytesPerSec=8000; //设置请求的平均数据传输率
waveform.nBlockAlign=1; //以字节为单位设置块对齐
waveform.wBitsPerSample=8; //根据wFormatTag的类型设置每个样本的位深如果wFormatTag= WAVE_FORMAT_PCM，此值应该设为8或16
waveform.cbSize=0; //额外信息的大小，以字节为单位
waveInOpen(&hWaveIn,WAVE_MAPPER,&waveform,(DWORD)this->m_hWnd,NULL,CALLBACK_WINDOW)

wBitsPerSample我把这个样本的位深设置为8时，waveInOpen打开正常，设置为16时，就出错了，是怎么回事？

...全文

282 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

满衣兄 2016-08-18

打赏
举报

回复

 
 // Set the input wave format
    //
    WAVEFORMATEX waveFormat;

    waveFormat.wFormatTag      = WAVE_FORMAT_PCM;
    waveFormat.nChannels       = 2;  // mono <=> 1, stereo <=> 2
    waveFormat.nSamplesPerSec  = 44100;
    waveFormat.wBitsPerSample  = 16; // 你这个参数好像填的不正确
    waveFormat.nBlockAlign     = waveFormat.nChannels * (waveFormat.wBitsPerSample/8);
    waveFormat.nAvgBytesPerSec = waveFormat.nSamplesPerSec * waveFormat.nBlockAlign;
    waveFormat.cbSize          = 0;

https://msdn.microsoft.com/zh-HK/library/ms713735

zhuojuedian2986 2016-08-18

打赏
举报

回复

或者说wBitsPerSample设置为8时，打开时返回值是0，设置为16时，返回值为32..

zhuojuedian2986 2016-08-18

打赏
举报

回复

引用 2 楼 yfqvip 的回复:

 
 // Set the input wave format
    //
    WAVEFORMATEX waveFormat;

    waveFormat.wFormatTag      = WAVE_FORMAT_PCM;
    waveFormat.nChannels       = 2;  // mono <=> 1, stereo <=> 2
    waveFormat.nSamplesPerSec  = 44100;
    waveFormat.wBitsPerSample  = 16; // 你这个参数好像填的不正确
    waveFormat.nBlockAlign     = waveFormat.nChannels * (waveFormat.wBitsPerSample/8);
    waveFormat.nAvgBytesPerSec = waveFormat.nSamplesPerSec * waveFormat.nBlockAlign;
    waveFormat.cbSize          = 0;

https://msdn.microsoft.com/zh-HK/library/ms713735

谢谢了，原来参数之间要互相匹配的，我以为直接把8改成16就可以了。。

采用winmm的waveinopen方法进行录音相比于简单的winmm录音方法， waveinopen更加灵活：选择录音设备，或者更多的参数设定。在网上寻找的工程文件都是运行在32为，64位设备会报无法找到实例错误。在google上寻找了很久解决办法进行了修复。原工程无法保存文件，是一个即录即播放的工程，我也加入了保存功能。

摘要： 3 ABSTRACT: 3 第一章引言 4 1.1 论文背景 4 1.2 国内外研究现状及发展趋势 5 1.2.1 研究现状 5 1.2.2 发展趋势 5 第二章关键技术 7 2.1 XMPP协议 7 2.1.1 XMPP协议简介 7 2.1.2 XMPP协议基本网络结构 7 2.1.2 选择XMPP协议的理由 7 2.2 网络通信协议 8 2.3 SOCKET网络编程 9 2.4 音频捕获技术 9 2.5 音频回放技术 9 2.6 音频采样技术 10 2.7 音频压缩/解压技术 10 2.8 P2P技术 10 第三章语音通讯系统的分析 11 3.1 语音通讯系统可行性分析 11 3.2 语音通讯系统需求分析 11 3.2.1 项目总述 12 3.2.2 市场需求分析 12 3.2.3 用户需求分析 12 3.2.4 软件性能要求 13 3.2.5 软件功能需求 13 3.3 语音通讯系统流程分析 14 3.4 语音通讯系统数据流图 15 第四章语音通讯系统的设计 17 4.1 系统结构 17 4.2 开发工具 17 4.3 流程设计 18 4.4 语音通讯系统总体设计 19 4.5 语音通讯系统详细设计 19 4.5.1 登录模块 19 4.5.2 建立连接模块 20 4.5.3 音频捕获模块 21 4.5.4 音频回放模块 23 第五章语音通讯系统的实现 26 5.1 构建语音通讯系统的用户登录系统 26 5.2 连接建立模块的实现 26 5.2.1 麦克风相关操作 26 5.2.2 建立通信连接 28 5.3音频捕获模块 32 5.3.1 确定音频格式 32 5.3.2 建立音频捕获对象并为其分配缓冲区 32 5.3.3 打开录音设备 33 5.3.4 开始录音 33 5.3.5 音频压缩并发送给远程主机 33 5.3.6 结束录音 34 5.4音频回放模块的实现 35 5.4.1 确定音频格式 35 5.4.2 建立音频回放对象 35 5.4.3 循环接收音频数据 35 5.4.4 打开回放设备 36 5.4.5 音频解压并回放 37 5.4.6 结束回放 37 5.5常用结构体定义及介绍 38 5.5.1 WAVEHDR 38 5.5.2 WAVEFORMATEX 38 5.6常用WINMM.DLL方法参数介绍 38 5.6.1 waveOutOpen 39 5.6.2 waveInOpen 39 5.6.3 waveOutWrite 39 5.6.4 waveOutPrepareHeader 40 5.6.5 waveInAddBuffer 40 5.7本系统的开发难点与解决技巧 40 5.7.1 通信连接的建立 40 5.7.2 语音捕获、压缩、解压、回放 41 5.7.3 音量大小的调节 41 5.7.4 委托、回调和异步 41 结语 42 参考文献: 43 致谢 44

语音识别的MATLAB实现声控小车结题报告小组成员：关世勇吴庆林一、项目要求：声控小车是科大华为科技制作竞赛命题组的项目，其要求是编写一个语言识别程序并适当改装一个小型机动车，使之在一个预先不知道具体形状的跑道上完全由声控来完成行驶比赛。跑道上可以有坡面，坑，障碍等多种不利条件，小车既要具有较快的速度，也要同时具有较强的灵活性，能够克服上述条件。二、项目分析：由于小车只要求完成跑道上的声控行驶，所以我们可以使用简单的单音命令来操作，如“前”、“后”、“左”、“右”等。由于路面有各种不利条件，而且规则要求小车尽可能不越过边线，这就决定了我们的小车不能以较高的速度进行长时间的快速行驶。所以我们必须控制小车的速度和行进距离。由于外界存在噪声干扰，所以我们必须对噪声进行处理以减小其影响。鉴于上诉各种要求，我们决定对购买的遥控小车进行简单改造，使用PC机已有的硬件条件编写软件来完成语音的输入，采集，处理和识别，以实现对小车的控制。三、解决思路与模块：整个程序大致可划分为三个模块，其结构框图如下图所示：整个程序我们在Visual C++ 环境下编写。四、各模块的实现： 1 声音的采集：将声音信号送入计算机，我们利用了声卡录音的低层操作技术，即对winmm.lib进行API调用。具体编程时这一部分被写在一个类中（Soundin类）。在构造函数中设定包括最大采样率（11025），数据缓存（作为程序一次性读入的数据，2048），声卡本身所带的一些影响采样数据等的各种参数；调用API函数waveInGetNumDevs（返回UNIT，参数为空）检察并打开声音输入设备，即声卡；并进而使用waveInGetDevCaps得到声卡的容量（在waveInCaps中存有该数据，对其进行地址引用，从DWORD dwFormats得到最大采样率、声道数和采样位）；创建一个叫WaveInThreadEvent的事件对象，并赋予一个Handle，叫m_WaveInEvent，开始利用线程指针m_WaveInThread调用自定义的线程WaveInThreadProc；对结构WAVEFORMATEX中WaveInOpen开始提供录音设备。注意设备句柄的得到是通过对HWAVEIN 型数据m_WaveIn的引用。由于通过这种方式进行录音的文件格式是.wav，所以要先设置录音长度，以及对头文件进行一些设置：包括buffer的地址为InputBuffer的初始地址，大小为录音长度的两倍，类型。使用waveInPrepareHeader为录音设备准备buffer。然后使用waveInAddBuffer函数为录音设备送出一个输入buffer。最后使用waveInStart(m_WaveIn)打开设备。程序中WaveInThreadProc需要提出另外说明，因为通过这个线程我们可以实现采样和数据提取。该线程首先定义一个指向CsoundIn类的指针pParam，并将其宏定义为PT_S。而线程参数即为空指针pParam。使用WaitForSingleObject将录音过程设置为一旦开始就不中止（除非中止线程）。在此线程中做如下两个工作：将数据送入buffer，并将数据传入某个参数（其调用一个函数，将buffer中的数据送入该函数的参数*pt），而这些数据正是我们要利用和处理的数字化的语音信息。 2 声音的预处理：声音信息的预处理主要包括音头和音尾的判断，声音的预加重，分帧处理和窗化处理。 A 音头音尾的判断与提取：这是该项目的一个难点。由于我们的声音信号不是连续给出的，而且现场还有噪声的存在，所以我们必须通过适当的方法来判断采集的数据是不是我们所要的声音控制信号。这又是该项目的一个重点。若声音指令信号提取的不恰当，那么我们采样所得的数据就和我们实际的语音信号就会有很大的出入，这样不但会延迟语音识别的时效性，而且会降低对这些声音信号的识别率。对声音信号的提取，主就是确定音头、音尾的位置。常用的方法有过零率和短时距能量等几种。我们这里采用的就是过零率这个方法。首先对噪声取样，从这些噪声样本中得到噪声的上下限，将实时信号与这个门限进行比较，得到过零率。定义过零率Zcr如下：其中：利用过零率的大小来判断是否有声音信号进入，若 ( 为预设的过零率值)，则表示有声音信号进入，就找到了音头。在找到音头的情况下，若，则表示声音结束，也就找到了音尾。在环境噪声较大且比声音指令小的多的情况下可以对这个门限加一修正。音头和音尾之间的部分就是我们用以作为识别用的声音指令信号了。由于一般情况下人们所发出的单音都有一定的时间长度而大的噪声则大多是突发的，持续时间较短，所以我们可以再对所得到的声音指令信号做一次筛选，若得到的声音信号的长度小于预设值，就可认为是噪声干扰，舍弃；若得到的声音信号的常到大于预设值，则将其作为有用信号存储。实验表明，利用过零率和预设长度相结合起来提取声音指令信号的方法很有效的。 B 语音信号的预加重：我们所采用的预加重的方法是较为常用的网络：传递函数为：得到的信号为：预加重的目的在于滤除低频干扰，尤其是50Hz或60Hz的工频干扰，将对于语音识别更为有用的高频部分的频谱进一步提升。在计算短时能量之前应用该滤波器，还可以起到消除直流漂移、抑制随机噪声和提升清音部分能量的效果。 C 分帧处理在计算各个系数之前要先将语音信号作分帧处理。语音信号是瞬时变化的，但在10～20ms内是相对稳定的，而我们设定的采样频率为11025所以我们对预处理后的语音信号S1(n)以300点为一帧进行处理，帧移为100个采样点。（N=300） D 窗化处理：为了避免矩形窗化时对LPC系数在端点的误差，我们采用了汉明窗函数来进行窗化。即：其中： 3 语音数据的特征提取：语音信号的特征有多种度量标准，我们采用的是比较常用的倒谱特征。语音信号是一种典型的时变信号，然而如果把观察时间缩短到几十毫秒，则可以得到一系列近似稳定的信号。人的发音器官可以用若干段前后连接的声管进行模拟，这就是所谓的声管模型。全极点线性预测模型（LPC）可以对声管模型进行很好的描述，每段声管对应一个LPC模型的极点。一般情况下，极点的个数在12－16个之间就可以足够清晰地描述语音信号的特征了。语音信号经过预处理，它的每个样值均可由过去若干个样值的线性组合来逼近，同时可以采用使实际语音抽样与线性预测抽样之间的均方差最小的方式，来解出一组预测的系数。这就是LPC所提取出来的信号的初始特征。预测值时域表达式为：其中，为加权系数，即LPC系数。预测的误差为：使在均方误差最小的条件下，可求得唯一的，此过程即为LPC分析过程。这里采用的是Levinson-Durbin法。由上面的式子有：其中，为待分析与引信号的自相关序列：因此：Levinson-Durbin算法为： 1．初始化： 2．迭代计算：对于 3．最后就算：以上式中的为反射系数。；为最小预测误差，随着阶数的增加而减少；为模型增益常量。在语音识别系统中，很少直接使用LPC系数，而是由LPC系数推导出另一种参数：线性预测倒谱系数（LPCC）。倒谱实际上是一种同态信号处理方法，标准的倒谱系数计算流程需要进行FFT变换、对数操作和相位校正等步骤，预算比较复杂。在实际计算中，他不是由原始信号x(n)得到，而是由LPC系数得到的。 LPC系数算出后，就可以直接进行倒谱系数的计算，其迭代算法如下： 1．初始化： 2．迭代计算：这里C(0)实际上就是直流分量，在识别中通常是不用的，也不去计算。综合考虑识别误差和识别速度的影响，我们在计算LPC 时，LPC系数的阶数Q值取为8，而LPCC系数的阶数P值取为12。 4 DTW 算法：语音识别程序的核心部分即采用合适的算法来识别不同的语音信号，在特定人语音识别算法中，对于孤立词语语音识别而言，最为简单的方法是采用DTW（Dynamic Time Warping，动态时间弯折）算法，该算法基于动态规划）（DP）的思想，解决了发音长短不一的模本匹配问题，是语音识别中出现较早、较为经典的一种算法。我们这里采用的就是DTW算法。我们用R表示已存的参考模板，T表示待识别的测试模板，R(1)，R(2) ，…，R(m)，T(1)，T(2)，…，T(n)分别表示参考模板和测试模板中的各语音帧，d[T(n)，R(m)]表示这两帧特征矢量之间的距离（DTW算法中通常采用欧氏距离）。为了比较R和T之间的相似度，可以计算他们之间的距离D[T,R]，距离越小则相似度越高。D[T,R]的计算通常采用的是动态规划的方法。将R和T的各个帧号分别在直角坐标系的横轴和纵轴上标出，则如下图可得到一个网格，网格中各点表示R和T中的一帧的交汇点。DP算法可以归结为寻找一条通过此网格中若干格点的路径，使得沿路径的累积距离达到最小值。为了使路径不至于过分倾斜，可以约束斜率在0.5－2范围内，如果路径已经通过了格点( ),那么下一个通过的格点( )只能是下列三种情况之一：搜索最佳路径的方法如下：搜索从( )开始，网格中任意一点只可能有一条路径通过。对于( )，其可达到该格点的前一格点之可能是 ( )，( )，( )，那么( )一定选择这3个距离中的最小者所对应的格点作为其前续格点。若用( )代表此格点，并将通过该格点的路径延伸而通过( )，这时此路径的累积距离为：其中的由下式决定：这样可以从初始点出发依次搜索直到搜索到终点便可得到最佳路径。五、整个系统的软件流程图：见右图。六、硬件用四个c1108型三极管来控制小车遥控手柄的前、后、左、右触点的通断。从计算机的并口引出四根信号线，与三极管相连，与前、后、左、右一一对应。若判断出指令信号后，则相应的信号线上输出高电平，该电路导通，发送无线信号。若无指令，则信号线上输出低电平，电路断路，不发送无线信号。电路示意图如下：（由于四条线路基本是一致的，这里只画出了其中的一根信号线与外电路的连接示意图）七、实现功能与技术指标： 1. 软件上可以识别前、后、左、右、停等语音指令，并发出相应的控制信号。 2. 硬件上可以实时的收发无限信号，并控制小车作相应的动作。 3. 语音识别正确率大于95％，从发出语音指令到执行该指令的延时小于100ms。八、与原设计方案的比较：我们的整个方案基本是按照原设计方案来进行的，各项指标也基本达到了预定目标。九、经费使用情况：主要分为两部分：第一，由于我们都没有学过语音识别方面的知识，所以一开始我们就买了一些参考书和资料。第二，在软件部分初步成型后，在对小车进行改装时购买了一些电子元器件以及其他一些工具。十、致谢：感谢华为研究所为我们提供这样好的锻炼机会，我们从中学到了很多书本上学不到的知识。感谢铁伟涛同学为我们提供方案支持。感谢我的导师魏衡华老师和314实验室的所有负责人为我们提供PC机和其它硬件条件以及方便的实验环境。感谢所有的评委老师在开题和中期评审中给我们提供很多宝贵的意见。

录音程序，可在DEC++或vc++6.0编译环境下成功运行部分代码： int main() { creat_file(); //新建文件，原文件数据被删除 RecordWave(); //录音函数 simplest_pcm16le_to_wave("NocturneNo2inEflat_44.1k_s16le.pcm", 1, 44100, "output_nocture.wav"); //将二进制录音信息从内存中提取，并生成 wav 文件测控 1602 DEV C ++ 环境下控制台应用程序善解人意成员:王帅、赵永玻、侯雅茹 3 return 0; } void RecordWave() { int count = waveInGetNumDevs(); //检测录音设备 printf("\n 音频输入数量：%d\n", count); WAVEINCAPS waveIncaps; MMRESULT mmResult = waveInGetDevCaps(0, &waveIncaps;, sizeof(WAVEINCAPS)); printf("\n 音频输入设备：%s\n", waveIncaps.szPname); if (MMSYSERR_NOERROR == mmResult) { //HWAVEIN phwi; WAVEFORMATEX pwfx; //录音格式指针 WaveInitFormat (&pwfx;, //波形声音的格式,单声道双声道使用 WAVE_FORMAT_PCM.当包含在 WAVEFORMATEXTENSIBLE 结构中时,使用 WAVE_FORMAT_EXTENSIBLE 1, //声道数量 44100, //采样率 16 // 采样位数 ); printf("\n 正在打开音频输入设备"); printf("\n 采样参数：声道 44.1kHz 16bit\n"); mmResult = waveInOpen( &phwi;, WAVE_MAPPER, &pwfx;, (DWORD)(MicCallback), NULL, CALLBACK_FUNCTION );//3 if (MMSYSERR_NOERROR == mmResult) { //WAVEHDR pwh1; char buffer1[10240]; pwh1.lpData = buffer1; pwh1.dwBufferLength = 10240; pwh1.dwUser = 1; pwh1.dwFlags = 0; 测控 1602 DEV C ++ 环境下控制台应用程序善解人意成员:王帅、赵永玻、侯雅茹 4 mmResult = waveInPrepareHeader(phwi, &pwh1;, sizeof(WAVEHDR));//为波形输入设备准备缓冲区 printf("\n 准备缓冲区 1"); //WAVEHDR pwh2; char buffer2[10240]; pwh2.lpData = buffer2; pwh2.dwBufferLength = 10240; pwh2.dwUser = 2; pwh2.dwFlags = 0; mmResult = waveInPrepareHeader(phwi, &pwh2;, sizeof(WAVEHDR));//为波形输入设备准备缓冲区 printf("\n 准备缓冲区 2\n"); // WAVEHDR pwh3; char buffer3[10240]; pwh3.lpData = buffer3; pwh3.dwBufferLength = 10240; pwh3.dwUser = 3; pwh3.dwFlags = 0; mmResult = waveInPrepareHeader(phwi, &pwh3;, sizeof(WAVEHDR));//为波形输入设备准备缓冲区 printf("准备缓冲区 3\n"); if (MMSYSERR_NOERROR == mmResult) { mmResult = waveInAddBuffer(phwi, &pwh1;, sizeof(WAVEHDR));//给输入设备增加一个缓存 printf("\n 将缓冲区 1 加入音频输入设备"); mmResult = waveInAddBuffer(phwi, &pwh2;, sizeof(WAVEHDR));//给输入设备增加一个缓存 printf("\n 将缓冲区 2 加入音频输入设备\n"); mmResult = waveInAddBuffer(phwi, &pwh3;, sizeof(WAVEHDR));//给输入设备增加一个缓存 printf("将缓冲区 3 加入音频输入设备\n");

函数原型：WINMMAPI MMRESULT WINAPI waveInOpen( LPHWAVEIN phwi, UINT uDeviceID, LPCWAVEFORMATEX...

2,586

社区成员

18,441

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章