文档智能:数字化转型的技术基石.docx下载

weixin_39822095 2023-03-19 13:30:11
文档智能:数字化转型的技术基石全文共15页,当前为第1页。文档智能:数字化转型的技术基石全文共15页,当前为第1页。文档智能:数字化转型的技术基石 文档智能:数字化转型的技术基石全文共15页,当前为第1页。 文档智能:数字化转型的技术基石全文共15页,当前为第1页。 随着数字化进程的加快,文档、图像等载体的结构化分析和内容提取成为关乎企业数字化转型成败的关键一环,自动、精准、快速的信息处理对于生产力的提升至关重要。以商业文档为例,不仅包含了公司内外部事务的处理细节和知识沉淀,还有大量行业相关的实体和数字信息。人工提取这些信息既耗时费力且精度低,而且可复用性也不高,因此,文档智能技术(Document Intelligence)应运而生。 文档智能技术深层次地结合了人工智能和人类智能,在金融、医疗、保险、能源、物流等多个行业都有不同类型的应用。例如:在金融领域,它可以实现财报分析和智能决策分析,为企业战略的制定和投资决策提供科学、系统的数据支撑;在医疗领域,它可以实现病例的数字化,提高诊断的精准度,并通过分析医学文献和病例的关联性,定位潜在的治疗方案。 什么是文档智能? 文档智能主要是指对于网页、数字文档或扫描文档所包含的文本以及丰富的排版格式等信息,通过人工智能技术进行理解、分类、提取以及信息归纳的过程。 文档智能技术 在过去的30年中,文档智能的发展大致经历了三个阶段。90年代初期,研究人员大多使用基于启发式规则的方法进行文档的理解与分析,通过人工观察文档的布局信息,总结归纳一些处理规则,对固定布局信息的文档进行处理。然而,传统基于规则的方法往往需要较大的人力成本,而且这些人工总结的规则可扩展性不强,因此研究人员开始采用基于统计学习的方法。随着机器学习技术的发展和进步,基于大规模标注数据驱动的机器学习模型成为了文档智能的主流方法,文档智能:数字化转型的技术基石全文共15页,当前为第2页。文档智能:数字化转型的技术基石全文共15页,当前为第2页。它通过人工设计的特征模板,利用有监督学习的方式在标注数据中学习不同特征的权重,以此来理解、分析文档的内容和布局。 文档智能:数字化转型的技术基石全文共15页,当前为第2页。 文档智能:数字化转型的技术基石全文共15页,当前为第2页。 基于深度学习特别是预训练技术的文档智能模型,近几年受到越来越多的重视,大型科技公司纷纷推出相应的文档智能服务,包括微软、亚马逊、谷歌、IBM、阿里巴巴、百度等在内的很多公司在这个领域持续发力,对于许多传统行业的数字化转型提供了有力的支撑。 随着各类实际业务和产品的出现,文档智能领域的基准数据集也百花齐放,这些基准数据集通常包含了基于自然语言文本或图像的标注信息,涵盖了文档布局分析、表格识别、信息抽取等重要的文档智能任务,它们的出现也推动了文档智能技术的进一步发展。 文档智能相关的基准数据集 传统的文档理解和分析技术往往基于人工定制的规则或少量标注数据进行学习,这些方法虽然能够带来一定程度的性能提升,但由于定制规则和可学习的样本数量不足,其通用性往往不尽如人意,而且针对不同类别文档的分析迁移成本较高。随着深度学习预训练技术的发展,以及大量无标注电子文档的积累,文档分析与识别技术进入了一个全新的时代。 微软亚洲研究院提出的 LayoutLM 便是一个全新的文档理解模型,通过引入预训练技术,同时利用文本布局的局部不变性特征,可有效地将未标注文档的信息迁移到下游任务中。LayoutLM 的论文(论文链接:/abs/1912.13318)已被KDD 2020 接收,并将在下周举行的 KDD 大会上进行分享。同时,为了解决文档理解领域现有的数据集标文档智能:数字化转型的技术基石全文共15页,当前为第3页。文档智能:数字化转型的技术基石全文共15页,当前为第3页。注规模小、标注粒度大、多模态信息缺失等缺陷,微软亚洲研究院的研究员们还提出了大规模表格识别数据集 TableBank和大规模文档布局标注数据集 DocBank(论文链接:/abs/2006.01038),利用弱监督的方法,构建了高质量的文档布局细粒度标注。 文档智能:数字化转型的技术基石全文共15页,当前为第3页。 文档智能:数字化转型的技术基石全文共15页,当前为第3页。 LayoutLM:在预训练阶段实现文本和布局信息对齐 大量的研究成果表明,大规模预训练语言模型通过自监督任务,可在预训练阶段有效捕捉文本中蕴含的语义信息,经过下游任务微调后能有效的提升模型效果。然而,现有的预训练语言模型主要针对文本单一模态进行,忽视了文档本身与文本天然对齐的视觉结构信息。为了解决这一问题,研究员们提出了一种通用文档预训练模型LayoutLM[1][2],选择了文档结构信息(Document Layout Informat , 相关下载链接:https://download.csdn.net/download/qq_43934844/87505313?utm_source=bbsseo
...全文
12 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
文档智能数字化转型技术基石全文共15页,当前为第1页。文档智能数字化转型技术基石全文共15页,当前为第1页。文档智能数字化转型技术基石 文档智能数字化转型技术基石全文共15页,当前为第1页。 文档智能数字化转型技术基石全文共15页,当前为第1页。 随着数字化进程的加快,文档、图像等载体的结构化分析和内容提取成为关乎企业数字化转型成败的关键一环,自动、精准、快速的信息处理对于生产力的提升至关重要。以商业文档为例,不仅包含了公司内外部事务的处理细节和知识沉淀,还有大量行业相关的实体和数字信息。人工提取这些信息既耗时费力且精度低,而且可复用性也不高,因此,文档智能技术(Document Intelligence)应运而生。 文档智能技术深层次地结合了人工智能和人类智能,在金融、医疗、保险、能源、物流等多个行业都有不同类型的应用。例如:在金融领域,它可以实现财报分析和智能决策分析,为企业战略的制定和投资决策提供科学、系统的数据支撑;在医疗领域,它可以实现病例的数字化,提高诊断的精准度,并通过分析医学文献和病例的关联性,定位潜在的治疗方案。 什么是文档智能文档智能主要是指对于网页、数字文档或扫描文档所包含的文本以及丰富的排版格式等信息,通过人工智能技术进行理解、分类、提取以及信息归纳的过程。 文档智能技术 在过去的30年中,文档智能的发展大致经历了三个阶段。90年代初期,研究人员大多使用基于启发式规则的方法进行文档的理解与分析,通过人工观察文档的布局信息,总结归纳一些处理规则,对固定布局信息的文档进行处理。然而,传统基于规则的方法往往需要较大的人力成本,而且这些人工总结的规则可扩展性不强,因此研究人员开始采用基于统计学习的方法。随着机器学习技术的发展和进步,基于大规模标注数据驱动的机器学习模型成为了文档智能的主流方法,文档智能数字化转型技术基石全文共15页,当前为第2页。文档智能数字化转型技术基石全文共15页,当前为第2页。它通过人工设计的特征模板,利用有监督学习的方式在标注数据中学习不同特征的权重,以此来理解、分析文档的内容和布局。 文档智能数字化转型技术基石全文共15页,当前为第2页。 文档智能数字化转型技术基石全文共15页,当前为第2页。 基于深度学习特别是预训练技术文档智能模型,近几年受到越来越多的重视,大型科技公司纷纷推出相应的文档智能服务,包括微软、亚马逊、谷歌、IBM、阿里巴巴、百度等在内的很多公司在这个领域持续发力,对于许多传统行业的数字化转型提供了有力的支撑。 随着各类实际业务和产品的出现,文档智能领域的基准数据集也百花齐放,这些基准数据集通常包含了基于自然语言文本或图像的标注信息,涵盖了文档布局分析、表格识别、信息抽取等重要的文档智能任务,它们的出现也推动了文档智能技术的进一步发展。 文档智能相关的基准数据集 传统的文档理解和分析技术往往基于人工定制的规则或少量标注数据进行学习,这些方法虽然能够带来一定程度的性能提升,但由于定制规则和可学习的样本数量不足,其通用性往往不尽如人意,而且针对不同类别文档的分析迁移成本较高。随着深度学习预训练技术的发展,以及大量无标注电子文档的积累,文档分析与识别技术进入了一个全新的时代。 微软亚洲研究院提出的 LayoutLM 便是一个全新的文档理解模型,通过引入预训练技术,同时利用文本布局的局部不变性特征,可有效地将未标注文档的信息迁移到下游任务中。LayoutLM 的论文(论文链接:/abs/1912.13318)已被KDD 2020 接收,并将在下周举行的 KDD 大会上进行分享。同时,为了解决文档理解领域现有的数据集标文档智能数字化转型技术基石全文共15页,当前为第3页。文档智能数字化转型技术基石全文共15页,当前为第3页。注规模小、标注粒度大、多模态信息缺失等缺陷,微软亚洲研究院的研究员们还提出了大规模表格识别数据集 TableBank和大规模文档布局标注数据集 DocBank(论文链接:/abs/2006.01038),利用弱监督的方法,构建了高质量的文档布局细粒度标注。 文档智能数字化转型技术基石全文共15页,当前为第3页。 文档智能数字化转型技术基石全文共15页,当前为第3页。 LayoutLM:在预训练阶段实现文本和布局信息对齐 大量的研究成果表明,大规模预训练语言模型通过自监督任务,可在预训练阶段有效捕捉文本中蕴含的语义信息,经过下游任务微调后能有效的提升模型效果。然而,现有的预训练语言模型主要针对文本单一模态进行,忽视了文档本身与文本天然对齐的视觉结构信息。为了解决这一问题,研究员们提出了一种通用文档预训练模型LayoutLM[1][2],选择了文档结构信息(Document Layout Informat
智能工厂的五大特征全文共3页,当前为第1页。智能工厂的五大特征全文共3页,当前为第1页。智能工厂的五大特征 智能工厂的五大特征全文共3页,当前为第1页。 智能工厂的五大特征全文共3页,当前为第1页。 智能工厂代表了高度互联和智能化的数字时代,工厂的智能化通过互联互通、数字化、大数据、智能装备与智能供应链五大关键领域得以体现,每个领域的特征如下: 一.互联互通 互联互通是通过CPS系统将人、物、机器与系统进行连接,以物联网作为基础,通过传感器、RFID、二维码和无线局域网等实现信息的采集,通过PLC和本地及远程服务器实现人机界面的交互,在本地服务器和云存储服务器实现数据读写,在ERP、PLM、MES和SCADA等平台实现无缝对接,从而达到信息的畅通,人机的智能。一方面,通过这些技术实现智能工厂内部从订单、采购、生产与设计等的信息实时处理与通畅,另一方面相关设计供应商、采购供应商、服务商和客户等与智能工厂实现互联互通,确保生产信息、服务信息等的同步,采购供应商随时可以提取生产订单信息,客户随时可以提交自己的个性化订单且可以查询自己订单的生产进展,服务商随时保持与客户等的沟通与相关事物处理。 二.数字化 数字化包含两方面内容,一方面是指智能工厂在工厂规划设计、工艺装备开发及物流等全部应用三维设计与仿真;通过仿真分析,消除设计中的问题,将问题提前进行识别,减少后期改进改善的投入,从而达到优化设计成本与质量,实现数字化制造和QCD与灵活生产的目标,实现真正的精益,通过仿真运营成本降低10-30%,劳动生产率提高15-30%。 另一方面,在传感器、定位识别、数据库分析等物联网基础数字化技术的帮助下,数字化贯穿产品创造价值链和智能工厂制造价值网络,从研发BOM到采购BOM和制造BOM,甚至到营销服务的BOM准确性与及时性直接影响是否能实现智能化,从研发到运营,乃至商业模式也需要数字化的贯通,从某种程度而言数字化的实现程度也成为智能制造战略成功的关键。 智能工厂的五大特征全文共3页,当前为第2页。智能工厂的五大特征全文共3页,当前为第2页。三.大数据 智能工厂的五大特征全文共3页,当前为第2页。 智能工厂的五大特征全文共3页,当前为第2页。 大数据,是一种规模大到在获取、存储、管理、分析方面大大超出传统数据库软件工具处理能力范围的数据集合,从大数据、物联网的硬件基础、连接技术到中间数据存储平台、数据分析平台形成了整个大数据的架构,实现了底层硬件数据采集到顶层数据分析的纵向整合。 大数据的战略意义不在于掌握庞大的数据信息,更重要的是对数据进行专业化处理,将来自各专业的各类型数据进行提取、分割、建立模型并进行分析,深度挖掘数据背后的潜在问题和贡献价值。数据采集方面毫无疑问做的很好,但数据也仅仅停留在形成报表的层面,无法直接利用与分析,识别出问题并进行整改,直接反映的是数据分析和数据应用人员的缺失,尤其是与专业相结合,需要既了解专业又懂得建模和算法的数据分析人才,这也是大数据面临的重要挑战,亟需企业和学校联合共同培养,且从取消手工的数据处理着手开展逐步积累,同时也反映了IT与制造的融合与同步不足。 四.智能供应链 智能供应链重点包含供应物流、生产物流、整车物流,各相应环节实施物流信息实时采集、同步传输、数据共享,并驱动物流设备运行,实现智能物流体系,达到准时化、可视化的目的,确保了资源的有效共享,也确保了订单的准时交付,在订单准确的同时减小了存储,最大限度的避免了仓储及二次转运的费用,降低生产成本,也是主机厂和供应商之间紧密合作下的质量和价格的优化,达到双赢的效果。 五.智能装备 智能装备通过智能产品、人机界面、RFID射频技术、插入技术智能网络及APP等具备可感知、可连接,形成了集群环境,最终形成"可感知-自记忆-自认知-自决策-自重构"的核心能力,如谷歌旗下公司开发的AlphaGo一样具备深度学习的智能,根据实际形势的输入可以自动分析判断、逻辑推理,思考下一步的落子,在人工智能领域形成了对人类围棋的绝对压倒性优势,AlphaGo的出现象征着计算机技术已进入人工智能的新信息技术时代(新IT时代),未来将于医疗等行智能工厂的五大特征全文共3页,当前为第3页。智能工厂的五大特征全文共3页,当前为第3页。业进行深度合作,作为人工智能的代表也预示智能装备的时代来临,充分证明智能装备是智能工厂物联网和数字化制造的基础,也是物联网实现的关键要素。 智能工厂的五大特征全文共3页,当前为第3页。 智能工厂的五大特征全文共3页,当前为第3页。 智能工厂的五大特征

13,103

社区成员

发帖
与我相关
我的任务
社区描述
CSDN 下载资源悬赏专区
其他 技术论坛(原bbs)
社区管理员
  • 下载资源悬赏专区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧