7,152
社区成员
发帖
与我相关
我的任务
分享高通平台上用生成式 AI 做实时语音合成(TTS),如何在端侧实现低于 200ms 的首包延迟?
关键优化:
1)选择轻量级 TTS 模型(如 VITS 或 FastSpeech2 + HiFi-GAN),整体参数控制在 30M 以内;
2)将声学模型和声码器均量化为 INT8 并部署到 Hexagon NPU;
3)实现流式合成,声学模型每生成一段 mel 频谱即送入声码器,不等全部生成完;
4)模型在应用启动时预加载到内存并做 warm-up 推理;
5)使用环形缓冲区管理音频输出,避免内存分配延迟。