UIE抽取:相同业务场景和文本下新增抽取实体和关系后召回率差异极大

qq_35343615 2023-09-22 15:05:05

环境为:
python3.7
paddlepaddle-gpu 2.4.2.post117
paddlenlp 2.5.2
cuda-version 11.7
GPU:A800

问题描述:在合同文本中抽取关系,合同文本长度有几千到一万字不等,由于有的关系涉及到的实体间隔比较远(该情况概率较小),在标注的时候是将整篇合同文本放进去进行标注的。在第一版的时候通过实体关系标注抽取的时候召回率和f1都有0.85左右,在第二版新增了实体种类和关系种类的时候,召回率为0.3,f1为0.4,较第一版差距比较大。同时,两版抽取schema中相同的实体和关系,第二版的效果也要远低于第一版的,不知道是不是被第二版标注的其他数据给影响到了整个的效果。

eg:全部合同文本涉及到多个类别,共有700份文件进行了标注,其中各类别分布不均匀,有的类别有100多个样本,有的类别是由10多个样本,但是部分样本在100的类别抽取效果也很不好。为了验证我尝试过将该类别样本单独提取出来做训练和推理,发现仅有该类别的情况下仍然效果不好。

 eg:注释的schema是效果好一点的那一版,没注释的是效果比较差的

 

 

 

...全文
203 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
CSDN-Ada助手 2023-09-22
精选
  • 打赏
  • 举报
回复
您的问题已经帮您同步至问答, 链接: https://ask.csdn.net/questions/8002742, 请您保持关注, 如果回答有帮助解决此问题, 麻烦您动动小手给相关的回答点赞, Ada会在评论区为您更新结题状态

682

社区成员

发帖
与我相关
我的任务
社区描述
自然语言处理实战,讨论算法、模型、服务、应用。请具体描述问题,提出问题。
算法推荐算法人工智能 个人社区
社区管理员
  • community_282
  • SoftwareTeacher
  • Alexxinlu
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

自然语言处理实战。

试试用AI创作助手写篇文章吧