基于python实现中文医学文本实体关系抽取源码+数据集+项目说明.zip下载

weixin_39821746 2023-01-21 09:00:24
基于python实现中文医学文本实体关系抽取源码+数据集+项目说明.zip 【项目介绍】 CHIP-2020-2中文医学文本实体关系抽取数据集,数据集包含儿科训练语料和百种常见疾病训练语料,儿科训练语料来源于518种儿科疾病,百种常见疾病训练语料来源于109种常见疾病。近7.5万三元组数据,2.8万疾病语句和53种定义好的schema。 同时相比于医学教材,临床实践文本指代关系明显,往往一段话中不会直接提及该主题疾病,因此针对临床实践类语料进行预处理,设计规则在每句之前增加主题疾病实体,并以@和原文分割。抽取语料时,如果三元组来源于上下多个句子,此时将句子进行拼接,”spo_list”中的Combined字段记录拼接信息。若句子中存在多个三元组,则记录在”spo_list”字段中,”text”字段记录来源文本。 , 相关下载链接:https://download.csdn.net/download/DeepLearning_/87367175?utm_source=bbsseo
...全文
浏览 回复 打赏 收藏 举报
写回复
回复
切换为时间正序
请发表友善的回复…
发表回复
相关推荐
发帖
下载资源悬赏专区

1.1w+

社区成员

CSDN 下载资源悬赏专区
其他 技术论坛(原bbs)
社区管理员
  • 下载资源悬赏专区社区
加入社区
帖子事件
创建了帖子
2023-01-21 09:00
社区公告
暂无公告