UIE抽取：相同业务场景和文本下新增抽取实体和关系后召回率差异极大

qq_35343615 2023-09-22 15:05:05

环境为:
python3.7
paddlepaddle-gpu 2.4.2.post117
paddlenlp 2.5.2
cuda-version 11.7
GPU：A800

问题描述：在合同文本中抽取关系，合同文本长度有几千到一万字不等，由于有的关系涉及到的实体间隔比较远（该情况概率较小），在标注的时候是将整篇合同文本放进去进行标注的。在第一版的时候通过实体关系标注抽取的时候召回率和f1都有0.85左右，在第二版新增了实体种类和关系种类的时候，召回率为0.3，f1为0.4，较第一版差距比较大。同时，两版抽取schema中相同的实体和关系，第二版的效果也要远低于第一版的，不知道是不是被第二版标注的其他数据给影响到了整个的效果。

eg：全部合同文本涉及到多个类别，共有700份文件进行了标注，其中各类别分布不均匀，有的类别有100多个样本，有的类别是由10多个样本，但是部分样本在100的类别抽取效果也很不好。为了验证我尝试过将该类别样本单独提取出来做训练和推理，发现仅有该类别的情况下仍然效果不好。

eg：注释的schema是效果好一点的那一版，没注释的是效果比较差的

...全文

753 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

CSDN-Ada助手 2023-09-22

精选

打赏
举报

回复

您的问题已经帮您同步至问答, 链接: https://ask.csdn.net/questions/8002742, 请您保持关注, 如果回答有帮助解决此问题, 麻烦您动动小手给相关的回答点赞, Ada会在评论区为您更新结题状态

本文介绍大模型知识图谱自底向上的构建技术，包括信息抽取、知识融合、知识加工等环节。信息抽取涵盖实体、关系、属性抽取及UIE技术；知识加工包含本体构建、知识推理和质量评估。还提及知识图谱在多行业的应用，以及提供AI大模型学习资料。

本文介绍大模型知识图谱构建，包括自底向上构建技术、构建流程（知识存储、抽取、融合、计算等）。信息抽取涉及实体、关系、属性抽取，知识融合有实体链接等，知识加工含本体构建、推理等。还分享AI大模型学习资料，助力学习与实战。

面向高端装备制造行业的实体关系抽取代码包，直接可用。用Python实现，核心模型是适配该领域的BERT变体gpNet，能从设备说明书、工艺文档等非结构化文本里精准抽取出‘设备-部件’‘工艺-材料’‘系统-子系统’这类专业关系。数据处理模块支持多种格式：内置dataloader读取标注数据；data_gen.py处理内部语料，data_genccl.py兼容CCL关系抽取竞赛格式；schemas.明确定义了‘属于’‘用于’‘由…制造’等21类领域关系。训练脚本集成FGM对抗训练提升鲁棒性，EMA机制稳定参数更

本文详细介绍了构建大模型知识图谱的整个过程，包括信息抽取、知识融合、知识加工等关键环节。首先从各种数据源中提取实体、属性和关系，然后通过知识融合消除矛盾和歧义，接着进行知识加工确保知识库质量。文章还探讨了知识图谱在不同领域的应用，以及如何通过迭代更新来维护知识图谱的准确性和时效性。

易语言源码易语言音频效果

自然语言处理(NLP)

692

社区成员

193

社区内容

发帖

与我相关

我的任务

算法推荐算法人工智能个人社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

自然语言处理实战。

试试用AI创作助手写篇文章吧

+ 用AI写文章