SH-SSS丨跨年龄声纹识别：学习年龄不变的说话人特征

语音之家 2022-08-11 17:09:50

SH Symposium Series on Speech (SH SSS 2022)

SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。

来自AI语音技术领域的优秀论文作者、专家学者，用最精炼的表达来解读最新的高质量论文。

分享的论文成果来自国内外顶级会议收录的优秀文章、前沿学术报告。

主题

Tittle

跨年龄声纹识别：学习年龄不变的说话人特征

嘉宾

Author

覃晓逸，武汉大学博士生，主要研究方向为声纹识别、语音鉴伪，已发表十余篇国际会议论文。全球语音大赛经验丰富，并获顶级赛事多项奖牌，参与组织举办INTERSPEECH2022、INTERSPEECH FFSVC2020和HI-MIA数据库的开源，曾获SASV2022 第二名，M2MET2022 第一名，VOXSRC2020 TRACK2 第三名，VOXSRC2019 TRACK2第三名，VOICES2019 SV 第三名，ASVSPOOF2021 PA 第一名。掌握语音处理算法和机器学习流行工具，有丰富的语音识别实战经验。

概述

Abstract

近些年说话人识别取得了巨大的发展，但是由于相关数据的缺乏，很少有人关注跨年龄声纹识别。本篇文章基于VoxCeleb数据集挖掘跨年龄测试集并提出一种学习年龄不变的说话人表征(Age-invariant speaker representation, AISR)方法。由于VoxCeleb数据是从YoutuBe平台上采集下来，因此这个数据天然的就是跨年龄数据的场景。然而数据集提供的原始信息并不包含说话人的年龄信息。因此，我们采用一种人脸估计年龄的方法，通过识别视频数据来预测估计每个音频段的说话人年龄。由此，我们构建了基于VoxCeleb的跨年龄测试集（Vox-CA），其中正样本对有意选择较大年龄跨度的数据。此外，在选择负样本对时参照Vox-H集，考虑国籍和性别的影响。经过测试发现，基线系统性能从Vox-H集上的1.939%EER下降到Vox-CA20集的10.419%，这一结果表明跨年龄场景的困难程度。因此，我们提出了一种年龄解耦对抗学习（ADAL）方法，以缓解年龄差距的负面影响，减少类内方差。我们的方法在Vox-CA20测试集上的相关EER降低超过10%，优于基线系统。相关资源已经在Github上开源。

题目 Tittle

Cross-Age Speaker Verification: Learning Age-Invariant Speaker Embeddings

期刊 Journal & Comments

InterSpeech2022

作者 Authors

覃晓逸，李娜，翁超，苏丹，李明

论文地址 Url

https://arxiv.org/abs/2207.05929

论文代码 Code

https://github.com/qinxiaoyi/Cross-Age_Speaker_Verification

议程

Program Overview

时间	主题	嘉宾
19:00-19:40	跨年龄声纹识别：学习年龄不变的说话人特征	覃晓逸
19:40-19:45	Q&A	覃晓逸

参与方式

SH-SSS丨跨年龄声纹识别：学习年龄不变的说话人特征

投稿

在语音领域，您的文章内容具有技术创意性、重要性、论文解读清晰均可投稿！

投稿邮箱 jack@speechhome.com

...全文

110 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

在智能语音交互时代，你是否曾遇到过这样的困扰：多人使用同一个AI设备时，系统无法区分不同用户身份，导致个性化服务缺失？或者担心语音助手在公共场合被他人误唤醒？xiaozhi-esp32项目集成的3D Speaker声纹识别技术，正是为了解决这些痛点而生。本文将深入解析xiaozhi-esp32如何通过3D Speaker技术实现精准的身份认证，为ESP32嵌入式设备带来革命性的声纹识别能力。 ...

在数字化时代，身份验证（Authentication）和生物识别（Biometric）技术已成为保障信息安全的关键支柱。传统的声音识别技术主要关注语音内容的理解，但OpenAI的Whisper-large-v3模型为我们打开了声纹识别（Voiceprint Recognition）的新篇章。这个拥有1550M参数的多语言语音识别模型，不仅在转录准确率上实现了突破，更为声纹生物识别提供了强大的技术基...

SpeechBrain是使用pytorch实现的灵活，用户友好的语音工具箱，以便用户可以快速实现语音识别，语音增强，信号处理等等任务，目前比较新且无相关文档，现分享相关数据处理pipeline data prepare（基于voxcleb_prepare.py）修改头文件路径采样率等信息修改csv生成文件方法(voxcleb_prepare中 _get_utt_split_lists) 我的数据路径 train—speaker_id—wav文件 test—speaker_id—wav文件 dev—

1. 背景介绍 1.1 语音识别技术的发展语音识别技术经历了漫长的发展历程，从早期的基于模板匹配的方法，到后来的基于统计模型的方法，再到如今的基于深度学习的方法。随着深度学习的兴起，语音识别技术取得了突破性的进展，识别准确率得到了显著提升。 1.2

234

社区成员

329

社区内容

发帖

与我相关

我的任务

语音识别人工智能自然语言处理企业社区北京·昌平区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章