SH-SSS丨跨年龄声纹识别:学习年龄不变的说话人特征

语音之家 2022-08-11 17:09:50

SH Symposium Series on Speech (SH SSS 2022) 

SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。 

来自AI语音技术领域的优秀论文作者、专家学者,用最精炼的表达来解读最新的高质量论文。

 分享的论文成果来自国内外顶级会议收录的优秀文章、前沿学术报告。

 

主题

Tittle

跨年龄声纹识别:学习年龄不变的说话人特征

 

嘉宾

Author

 覃晓逸,武汉大学博士生,主要研究方向为声纹识别、语音鉴伪,已发表十余篇国际会议论文。全球语音大赛经验丰富,并获顶级赛事多项奖牌,参与组织举办INTERSPEECH2022、INTERSPEECH FFSVC2020和HI-MIA数据库的开源,曾获SASV2022 第二名,M2MET2022 第一名,VOXSRC2020 TRACK2 第三名,VOXSRC2019 TRACK2第三名,VOICES2019 SV 第三名,ASVSPOOF2021 PA 第一名。掌握语音处理算法和机器学习流行工具,有丰富的语音识别实战经验。

 

概述

Abstract

近些年说话人识别取得了巨大的发展,但是由于相关数据的缺乏,很少有人关注跨年龄声纹识别。本篇文章基于VoxCeleb数据集挖掘跨年龄测试集并提出一种学习年龄不变的说话人表征(Age-invariant speaker representation, AISR)方法。由于VoxCeleb数据是从YoutuBe平台上采集下来,因此这个数据天然的就是跨年龄数据的场景。然而数据集提供的原始信息并不包含说话人的年龄信息。因此,我们采用一种人脸估计年龄的方法,通过识别视频数据来预测估计每个音频段的说话人年龄。由此,我们构建了基于VoxCeleb的跨年龄测试集(Vox-CA),其中正样本对有意选择较大年龄跨度的数据。此外,在选择负样本对时参照Vox-H集,考虑国籍和性别的影响。经过测试发现,基线系统性能从Vox-H集上的1.939%EER下降到Vox-CA20集的10.419%,这一结果表明跨年龄场景的困难程度。因此,我们提出了一种年龄解耦对抗学习(ADAL)方法,以缓解年龄差距的负面影响,减少类内方差。我们的方法在Vox-CA20测试集上的相关EER降低超过10%,优于基线系统。相关资源已经在Github上开源。

 

题 目 Tittle

Cross-Age Speaker Verification: Learning Age-Invariant Speaker Embeddings

期 刊 Journal & Comments

InterSpeech2022

作 者 Authors

覃晓逸,李娜,翁超,苏丹,李明

论文地址 Url

https://arxiv.org/abs/2207.05929

论文代码 Code

https://github.com/qinxiaoyi/Cross-Age_Speaker_Verification

议程

Program Overview

时间主题嘉宾
19:00-19:40跨年龄声纹识别:
学习年龄不变的说话人特征
覃晓逸
19:40-19:45Q&A

参与方式

SH-SSS丨跨年龄声纹识别:学习年龄不变的说话人特征

 

 

投稿

在语音领域,您的文章内容具有技术创意性重要性论文解读清晰均可投稿!

 

 

投稿邮箱 jack@speechhome.com

...全文
39 回复 打赏 收藏 举报
写回复
回复
切换为时间正序
请发表友善的回复…
发表回复
发帖
语音之家

136

社区成员

助力AI语音开发者的社区
语音识别人工智能自然语言处理 企业社区 北京·昌平区
社区管理员
  • 语音之家
加入社区
帖子事件
创建了帖子
2022-08-11 17:09
社区公告
暂无公告