语音芯片

qingfeng200634 2010-04-27 10:28:00

有没有人比较了解语音芯片的，能不能介绍一个比较详细的关于语音芯片的应用。最好是有图片，便于学习。

...全文

122 8 打赏收藏转发到动态举报

写回复

用AI写文章

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

qingfeng200634 2010-05-01

打赏
举报

o 这个我刚好借到了这本书正在学习，。。。谢谢啊。。

kyzf 2010-05-01

打赏
举报

也可以考虑采用凌阳的16位单片机，SPECE061A

他们的官网上有很多资料，楼主可以去看看啊。

qingfeng200634 2010-04-30

打赏
举报

有没有什么距离控制范围的芯片？例如像温度控制的芯片DS1620.芯片能存储一个最高温度和一个最低温度通过反馈来控制温度。

黎仔656 2010-04-29

打赏
举报

谢了，学习中，

lbing7 2010-04-28

打赏
举报

之前用过一种以模拟数据进行存储的芯片

可以录音，自带功放电路

不过失真比较大，但作为一般的提示，报警问题不大

qingfeng200634 2010-04-28

打赏
举报

谢谢！！学习中。。。

qingfeng200634 2010-04-28

打赏
举报

o 还记得是什么？也许对我有用。

zhulongzhulong 2010-04-28

打赏
举报

语音芯片

　　语音芯片供应商：广州唯创电子深圳办事处
　　映发微--九齐NY语音芯片语音芯片的定义？ / 什么是语音芯片？ / Voice IC？/语音IC？（提供各类语音IC：映发微信息科技——九齐、华邦语音IC华东总代理。）
　　什么是语音芯片？语音芯片又称：语音IC，又被叫做声音芯片。
　　（一）、语音基础知识
　　1、什么是语音芯片？
　　语音芯片定义：将语音信号通过采样转化为数字，存储在IC的ROM中，再通过电路将ROM中的数字还原成语音信号。
　　普通语音芯片放音功能实质上是一个DAC过程，而ADC过程资料是由电脑完成，其中包括对语音信号的采样、压缩、EQ等处理。
　　录音芯片包括ADC和DAC两个过程，都是由芯片本身完成的，包括语音数据的采集、分析、压缩、存储、播放等步骤。
　　ADC=Analog Digital Change 模数转换
　　DAC= Digital Analog Change 数模转换
　　音质的优劣取决于ADC和DAC位数的多少。例如，华邦的W90P710系列，ADC和DAC均为32bit,接近真人音质。HELIOS公司的H224QP系列与九齐的NY3\NY5系列，ADC和DAC均为16bit，接近CD音质。SUNLINK公司的SLP300系列与佑华的AMEFB系列的DAC为8bit，为普通音质。
　　2、语音信号的量化表述：（分类：语音芯片和音乐芯片）
　　(a) “语音芯片”介绍：
　　（1）语音信号的量化
　　采样率（f）、位数（n）、波特率（T）
　　采样：将语音模拟信号转化成数字信号。
　　采样率：每秒采样的个数（byte）。
　　波特率：每秒钟采样的位数(bit)。波特率直接决定音质。Bps: bit per second
　　采样位数指在二进制条件下的位数。一般在没有特别说明的情况下，声音的采样位数指8位，由00H--FFH，静音定为80H。
　　（2）采样率
　　奈奎斯特抽样定理（Nyquist Law）：要从抽样信号中无失真地恢复原信号，抽样频率应大于2倍信号最高频率。抽样频率小于2倍频谱最高频率时，信号的频谱有混叠。抽样频率大于2倍频谱最高频率时，信号的频谱无混叠。
　　嗓音的频带宽度为20～20K HZ左右，普通的声音大概在3KHZ以下。所以，一般CD取的音质为44.1K和16bit，如果碰到某些特别的声音，如乐器，音质也有用48K和24bit的情况，但不是主流。
　　一般在我们处理针对普通语音IC的时候，采样率最高达到16K就够了、说话声一般取8K（如电话音质）、6K左右。低于6K效果比较差。
　　在应用单片机的过程中，采样越高，定时器中断速度越快，会影响到其他信号的监控和检测，所以要综合考虑。
　　（3）语音压缩技术。
　　由于语音数据量庞大，对语音数据进行有效压缩是很必要的，能够使我们在有限的ROM空间里录入更多的语音内容。有以下几种方式：
　　语音分段：将语音中可以重复的部分截取出来，通过排列组合将内容完整地回放出来。
　　语音采样：一般我们使用的喇叭频响曲线在中频部分，较少用到高频，所以，在喇叭音质可以接受的情况下，适当降低采样频率，达到压缩效果，这种过程是不可逆的，无法恢复原貌，叫有损压缩。
　　数学压缩：主要是针对采样位数进行压缩，这种方式也是有损压缩。例如，我们经常采用的ADPCM压缩格式，是将语音数据从16bit压缩到4bit，压缩率是4倍。MP3是对数据流进行压缩，涉及到数据预测问题，它的波特率压缩倍率为10倍左右。
　　通常，以上几种压缩方式都是综合起来使用的。
　　（4）常用语音格式
　　PCM格式： Pulse Code Modulation 脉冲编码调制，它将声音模拟信号采样后得到量化后的语音数据，是最基本最原始的一种语音格式。同它极为类似的还有RAW格式和SND格式。它们都是纯语音格式。
　　WAV格式：Wave Audio Files 是微软公司开发的一种声音文件格式，也叫波形声音文件，被Windows平台及其应用程序广泛支持。WAV格式支持许多压缩算法，支持多种音频位数、采样频率和声道，但WAV格式对存储空间需求太大不便于交流和传播。WAV文件里面存放的每一块数据都有自己独立的标识，通过这些标识可以告诉用户究竟这是什么数据，这些数据包括采样频率和位数，单声道(mono)还是立体声(stero)等。
　　ADPCM格式：是利用对过去的几个抽样值来预测当前输入的样值，并使其具有自适应的预测功能与实际检测值进行比较，随时对测得的差值自动进行量化级差的处理，使之始终保持与信号同步变化。它适用于语音变化率适中的情况，而且声音回放过程简短。它的优点是对于人声的处理比较逼真，一般达到90％以上，已广泛地应用于电话通信领域。
　　MP3格式： Moving Picture Experts Group Audio Layer III，简称为MP3。它是利用 MPEG Audio Layer 3 的技术，采取了名为“感官编码技术”的编码算法：编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音电平，接着通过量化的方式将剩下的每一位打散排列，最后形成具有较高压缩比的mp3文件，并使压缩后的文件在回放时能够达到较接近原音源的声音效果。它的实质是vbr（Variant Bitrate 可变波特率）可以根据编码的内容动态地选择合适的波特率，因此编码的结果是在保证了音质的同时又照顾了文件的大小。
　　mp3压缩率10倍甚至12倍。是最初出现的一种高压缩率的语音格式。
　　Linear Scale格式：根据声音的变化率大小，把声音分成若干段，对每段用线性比例进行压缩，但是它的比例是可变的。SUNLINK公司和ALPHA公司的Linear Scale格式为5bit。
　　Logpcm格式：基本上对整个声音进行线性压缩，将最后若干位去掉。这种压缩方式在硬件上很容易实现，但音质比Linear Scale差一些，特别是音量较小声音比较细腻的情况下效果较差。主要用于pure speech方面。
　　（b）“音乐芯片”介绍：
　　（1）音乐的通道与音色：
　　包络（envelope）方波(patch) 通道（channel）
　　包络：合成音色的一部分，单位时间内音符输出的变化，常见有“ADSR”
　　方波：合成音色的一部分，单位时间内音符方波电流的变化。（另见三角波等）
　　通道：在同一时间内，芯片输出的音符个数，即“单音乐器”的个数。
　　PCT：模拟音色的一种，通过采样256个点的乐器声音来模拟出各个音符的音高。(音色柔和，占空间小，但不够真实)
　　FULL WAVE：通过采集一种乐器声音来模拟各个音符音高。（乐器声真实，但占用空间大，且采集音色音质要求高）
　　（2）音乐的压缩：
　　由于音乐数据量庞大，对音乐数据进行有效压缩是很必要的，能够使我们在有限的ROM空间里录入更多的音乐内容。有以下几种方式：
　　音乐分段：将音乐中可以重复的部分截取出来，通过排列组合将内容完整地回放出来。
　　音色：根据音乐的丰满程度、需求程度，来确定Full wave，PCT、dual tone的选择，各个音色占用空间不懂，音色质量也不同。。
　　数学压缩：主要是针对采样的音色（Full wave）进行压缩，这种方式也是有损压缩，对于要采集的音色进行降采样、处理等减小采集音色的大小（同语音类的修音）。
　　（3）常用音乐格式：
　　MID格式：MIDI(Musical Instrument Digital Interface)乐器数字接口，是20 世纪80 年代初为解决电声乐器之间的通信问题而提出的。MIDI 传输的不是声音信号, 而是音符、控制参数等指令。
　　WAV格式：（相见语音IC类介绍）采集音色的格式。
　　3、语音ROM空间的表述
　　语音芯片为表述的形象化，由语音长度来表示
　　a)普通语音芯片以6K采样率为语音长度计算标准。
　　b)录音IC以4K采样率为语音长度计算标准。
　　即：以6k（4k）采样率芯片可以播放的长度。
　　4、语音芯片的要素
　　相同品种的芯片成本与芯片的大小成正比。
　　a)I/O口的分配和ROM的大小（语音秒数）决定芯片成本。低秒数语音芯片其I/O口较少。
　　b)音质提高，采样提高，语音秒数缩短。
　　音质降低，采样降低，语音秒数变长
　　c) 语音秒数的计算方法：M/(n*f)
　　M---ROM大小（bit） n*f---波特率
　　5、声音处理软件介绍
　　1）SoundForge
　　2）Cooledit
　　3）goldwave
　　4）Calewalk
　　6、语音芯片分类：
　　语音芯片根据集成电路类型来分,凡是与声音有关系的集成电路被统称为语音芯片(又称语音IC,这里应该叫成Voice IC),但是在语音芯片的大类型中,又被分为语音IC(这里应该叫成Speech IC),音乐IC(这里应该叫成Music IC)两种.
　　（a）现在市场上常见语音芯片分类：
　　短时间芯片有10秒，20秒，40秒，80秒,170秒的芯片，针对型号：WTV系列、ISD1700系列芯片和NY3系列芯片。
　　常用的模块有：6分钟，8分钟，16分钟，1小时的等。。针对型号：WT588D系列语音模块
　　长时间的芯片有：340秒，500秒，1000秒，2000秒更长。。针对型号：WTV340、ISD4000、NY5系列语音芯片
　　通用的芯片有：3秒到340秒。针对型号：WTV系列，WTB系列,NY系列.
　　(b)现在市场上常见音乐芯片分类：
　　单音片：是一种最基本的音乐IC,是音乐单通道的,同一时间音符输出的多少,决定了单音片的效果,有70多,100多音符等等.
　　音乐通道：2通道、3通道、4通道、8通道、12通道等更多。。。针对型号：NY2系列、NY5系列、WB681512系列等等

语音识别LD3320芯片PCB原理图和封装库的文件,做好了的

WT588D VoiceChip V-B是根据WT588D语音芯片本身特性研发出来的电脑上位机软件。能够最大程度的发挥WT588D语音芯片/模块的各项性能，通过WT588D VoiceChip V-B能随意编译、更改、组合WT588D语音芯片/模块的语音工程。

基于深度学习的语音识别实战课程主要包括三部分内容：1.经典论文算法讲解；2.算法源码解读；3.项目实战；通俗讲解语音识别领域当下经典论文思想，详细解读源码中每一核心模块并基于真实数据集展开项目实战。整体课程...