爱数智慧五周年庆,数据集产品感恩赠送活动开启

MagicData 2021-10-16 12:29:31

恰逢爱数智慧五周年之际,为感恩新老客户一直以来的陪伴,爱数智慧将开展“5周年特别活动”:从10月15日到12月31日止,凡累计购买爱数智慧600小时以上语音训练数据集,即可获赠180小时中文对话式训练数据集及20小时自然甜美中文TTS训练数据集。

20万+自有数据集产品

目前,爱数智慧拥有超过20万自有训练数据集,其中超过12万小时对话式数据,超过6万小时朗读式数据,超过2万小时自发式数据,涵盖ASR、TTS、NLP、发音词典等。

爱数智慧的数据服务语种超过60种语言和方言,既有常用语种如英语、中文、德语、法语、荷兰语、意大利语等,也有马来语、泰语、印尼语等特色语种。

数据在方言方面涵盖八大方言区方言,如粤语、上海话、四川话、闽南话等。爱数智慧采集的对话数据来自自然、真实的对话场景,表达风格口语化,对话自然流畅。

爱数智慧针对不同场景开发相应的数据集,数据集内容上丰富多样,如车载噪音、客服、线上会议、人机交互、自由对话、唤醒词等,满足不同应用场景下的模型训练。

为降低有限词汇(out of vocabulary)对识别率的影响,爱数智慧研发了自主知识产权的发音词典标注系统。发音词典词条和爱数智慧ASR数据集相匹配,并且覆盖字词在真实场景下的发音,包含了每个字单独发音,以及上下文中的真实发音包括变调信息等。方言发音词典包含超过10万条通用式词条,从而加快OOV问题的解决。

其中热门数据如中文普通话数据量超过9万小时,英语超过2万小时,这些数据广泛应用于智慧出行、智慧金融、智能社交、智慧家居、智能终端等各大行业。


获赠一:180小时中文对话式数据集

客户购买超过600小时以上语音训练数据集,可获赠180小时中文对话式数据集。该中文对话数据集由湖南、山东、山西、四川等地超过600人参与录制,根据给定主题进行自由对话,话题丰富,对话内容包括科技产品、日常生活、文化娱乐等。数据集总时长为180小时。数据在安静室内录制,正确率可达97%以上。可用于智慧家居、智能社交、智能终端等各大场景。

 

获赠二:自然甜美中文TTS训练数据集

客户购买超过600小时以上语音数据集,获赠180小时中文对话式数据集同时,还获赠20小时自然甜美TTS训练数据集。

该数据集在专业TTS录音棚录制,录制设备为专业级高保真麦克风,音色为甜美女声,校对正确率达到99%。该数据产品话题涉及娱乐、家居、生活、金融等,可用于车载导航、智能家居、智慧金融等智能化场景。

 

...全文
147 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

5

社区成员

发帖
与我相关
我的任务
社区描述
社区为AI开发者提供大量免费的结构化数据集,包括ASR、TTS、NLP等数据集,供大家训练和测试模型使用。
数据结构 企业社区
社区管理员
  • Magic Data
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧