5
社区成员




恰逢爱数智慧五周年之际,为感恩新老客户一直以来的陪伴,爱数智慧将开展“5周年特别活动”:从10月15日到12月31日止,凡累计购买爱数智慧600小时以上语音训练数据集,即可获赠180小时中文对话式训练数据集及20小时自然甜美中文TTS训练数据集。
目前,爱数智慧拥有超过20万自有训练数据集,其中超过12万小时对话式数据,超过6万小时朗读式数据,超过2万小时自发式数据,涵盖ASR、TTS、NLP、发音词典等。
爱数智慧的数据服务语种超过60种语言和方言,既有常用语种如英语、中文、德语、法语、荷兰语、意大利语等,也有马来语、泰语、印尼语等特色语种。
数据在方言方面涵盖八大方言区方言,如粤语、上海话、四川话、闽南话等。爱数智慧采集的对话数据来自自然、真实的对话场景,表达风格口语化,对话自然流畅。
爱数智慧针对不同场景开发相应的数据集,数据集内容上丰富多样,如车载噪音、客服、线上会议、人机交互、自由对话、唤醒词等,满足不同应用场景下的模型训练。
为降低有限词汇(out of vocabulary)对识别率的影响,爱数智慧研发了自主知识产权的发音词典标注系统。发音词典词条和爱数智慧ASR数据集相匹配,并且覆盖字词在真实场景下的发音,包含了每个字单独发音,以及上下文中的真实发音包括变调信息等。方言发音词典包含超过10万条通用式词条,从而加快OOV问题的解决。
其中热门数据如中文普通话数据量超过9万小时,英语超过2万小时,这些数据广泛应用于智慧出行、智慧金融、智能社交、智慧家居、智能终端等各大行业。
客户购买超过600小时以上语音训练数据集,可获赠180小时中文对话式数据集。该中文对话数据集由湖南、山东、山西、四川等地超过600人参与录制,根据给定主题进行自由对话,话题丰富,对话内容包括科技产品、日常生活、文化娱乐等。数据集总时长为180小时。数据在安静室内录制,正确率可达97%以上。可用于智慧家居、智能社交、智能终端等各大场景。
客户购买超过600小时以上语音数据集,获赠180小时中文对话式数据集同时,还获赠20小时自然甜美TTS训练数据集。
该数据集在专业TTS录音棚录制,录制设备为专业级高保真麦克风,音色为甜美女声,校对正确率达到99%。该数据产品话题涉及娱乐、家居、生活、金融等,可用于车载导航、智能家居、智慧金融等智能化场景。