语音之家 2022-11-14 16:48:18

SH-SSS丨《端到端音视频说话人日志网络》论文线上分享

本文提出了一种基于端到端神经网络的音视频说话人日志方法。该音视频模型采用音频特征（例如 FBANK）、多说话人唇型（ROI）和多说话人 i-vector向量作为多模态输入。通过精心设计的端到端结构，所提出的方法可以很好处理重叠语音问题，并通过多模态信息准确地区分语音和非语音。我们在MISP数据集上进行了评估，所提出的方法在的开发/测试集上实现了10.1%/9.5%的分类错误率 (DER)，而纯音频和纯视频系统的 DER 分别为27.9%/29.0%和14.6%/13.1%。来自AI语音技术领域的。