本项目是针对医疗数据,进行命名实体识别。主要采用的方法:
基于条件随机场(Condition Random Fields, CRF)的命名实体识别.
基于双向长短时记忆神经网络和条件随机场(Bi-LSTM-CRF)的命名实体识别。
Introduce
raw_data是原始数据,来源于CCKS2017任务二中,针对医疗电子病例进行命名实体识别。reader.py文件是对原始数据进行处理,生成标准的NER格式(data, pos, label)的数据。
train_test_data是模型的训练和测试的语料,其中word2id.pkl和char2id.pkl是神经网络中需要读入的字典。
crf文件夹是使用CRF进行命名实体识别的模型,其中medical_entity_recognition_bio_char_ori.crfsuite和medical_entity_recognition_bio_word_ori.crfsuite分别是训练好的,以字为特征单元和词为特征单元的模型。
bilstm_crf文件夹中是基于神经网络的命名实体识别的模型。其中,bio_model下存
, 相关下载链接:
https://download.csdn.net/download/weixin_44010641/89210089?utm_source=bbsseo