文档智能:数字化转型的技术基石.docx下载

weixin_39822095 2023-03-19 13:30:11
文档智能:数字化转型的技术基石全文共15页,当前为第1页。文档智能:数字化转型的技术基石全文共15页,当前为第1页。文档智能:数字化转型的技术基石 文档智能:数字化转型的技术基石全文共15页,当前为第1页。 文档智能:数字化转型的技术基石全文共15页,当前为第1页。 随着数字化进程的加快,文档、图像等载体的结构化分析和内容提取成为关乎企业数字化转型成败的关键一环,自动、精准、快速的信息处理对于生产力的提升至关重要。以商业文档为例,不仅包含了公司内外部事务的处理细节和知识沉淀,还有大量行业相关的实体和数字信息。人工提取这些信息既耗时费力且精度低,而且可复用性也不高,因此,文档智能技术(Document Intelligence)应运而生。 文档智能技术深层次地结合了人工智能和人类智能,在金融、医疗、保险、能源、物流等多个行业都有不同类型的应用。例如:在金融领域,它可以实现财报分析和智能决策分析,为企业战略的制定和投资决策提供科学、系统的数据支撑;在医疗领域,它可以实现病例的数字化,提高诊断的精准度,并通过分析医学文献和病例的关联性,定位潜在的治疗方案。 什么是文档智能? 文档智能主要是指对于网页、数字文档或扫描文档所包含的文本以及丰富的排版格式等信息,通过人工智能技术进行理解、分类、提取以及信息归纳的过程。 文档智能技术 在过去的30年中,文档智能的发展大致经历了三个阶段。90年代初期,研究人员大多使用基于启发式规则的方法进行文档的理解与分析,通过人工观察文档的布局信息,总结归纳一些处理规则,对固定布局信息的文档进行处理。然而,传统基于规则的方法往往需要较大的人力成本,而且这些人工总结的规则可扩展性不强,因此研究人员开始采用基于统计学习的方法。随着机器学习技术的发展和进步,基于大规模标注数据驱动的机器学习模型成为了文档智能的主流方法,文档智能:数字化转型的技术基石全文共15页,当前为第2页。文档智能:数字化转型的技术基石全文共15页,当前为第2页。它通过人工设计的特征模板,利用有监督学习的方式在标注数据中学习不同特征的权重,以此来理解、分析文档的内容和布局。 文档智能:数字化转型的技术基石全文共15页,当前为第2页。 文档智能:数字化转型的技术基石全文共15页,当前为第2页。 基于深度学习特别是预训练技术的文档智能模型,近几年受到越来越多的重视,大型科技公司纷纷推出相应的文档智能服务,包括微软、亚马逊、谷歌、IBM、阿里巴巴、百度等在内的很多公司在这个领域持续发力,对于许多传统行业的数字化转型提供了有力的支撑。 随着各类实际业务和产品的出现,文档智能领域的基准数据集也百花齐放,这些基准数据集通常包含了基于自然语言文本或图像的标注信息,涵盖了文档布局分析、表格识别、信息抽取等重要的文档智能任务,它们的出现也推动了文档智能技术的进一步发展。 文档智能相关的基准数据集 传统的文档理解和分析技术往往基于人工定制的规则或少量标注数据进行学习,这些方法虽然能够带来一定程度的性能提升,但由于定制规则和可学习的样本数量不足,其通用性往往不尽如人意,而且针对不同类别文档的分析迁移成本较高。随着深度学习预训练技术的发展,以及大量无标注电子文档的积累,文档分析与识别技术进入了一个全新的时代。 微软亚洲研究院提出的 LayoutLM 便是一个全新的文档理解模型,通过引入预训练技术,同时利用文本布局的局部不变性特征,可有效地将未标注文档的信息迁移到下游任务中。LayoutLM 的论文(论文链接:/abs/1912.13318)已被KDD 2020 接收,并将在下周举行的 KDD 大会上进行分享。同时,为了解决文档理解领域现有的数据集标文档智能:数字化转型的技术基石全文共15页,当前为第3页。文档智能:数字化转型的技术基石全文共15页,当前为第3页。注规模小、标注粒度大、多模态信息缺失等缺陷,微软亚洲研究院的研究员们还提出了大规模表格识别数据集 TableBank和大规模文档布局标注数据集 DocBank(论文链接:/abs/2006.01038),利用弱监督的方法,构建了高质量的文档布局细粒度标注。 文档智能:数字化转型的技术基石全文共15页,当前为第3页。 文档智能:数字化转型的技术基石全文共15页,当前为第3页。 LayoutLM:在预训练阶段实现文本和布局信息对齐 大量的研究成果表明,大规模预训练语言模型通过自监督任务,可在预训练阶段有效捕捉文本中蕴含的语义信息,经过下游任务微调后能有效的提升模型效果。然而,现有的预训练语言模型主要针对文本单一模态进行,忽视了文档本身与文本天然对齐的视觉结构信息。为了解决这一问题,研究员们提出了一种通用文档预训练模型LayoutLM[1][2],选择了文档结构信息(Document Layout Informat , 相关下载链接:https://download.csdn.net/download/qq_43934844/87505313?utm_source=bbsseo
...全文
10 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
文档智能数字化转型技术基石全文共15页,当前为第1页。文档智能数字化转型技术基石全文共15页,当前为第1页。文档智能数字化转型技术基石 文档智能数字化转型技术基石全文共15页,当前为第1页。 文档智能数字化转型技术基石全文共15页,当前为第1页。 随着数字化进程的加快,文档、图像等载体的结构化分析和内容提取成为关乎企业数字化转型成败的关键一环,自动、精准、快速的信息处理对于生产力的提升至关重要。以商业文档为例,不仅包含了公司内外部事务的处理细节和知识沉淀,还有大量行业相关的实体和数字信息。人工提取这些信息既耗时费力且精度低,而且可复用性也不高,因此,文档智能技术(Document Intelligence)应运而生。 文档智能技术深层次地结合了人工智能和人类智能,在金融、医疗、保险、能源、物流等多个行业都有不同类型的应用。例如:在金融领域,它可以实现财报分析和智能决策分析,为企业战略的制定和投资决策提供科学、系统的数据支撑;在医疗领域,它可以实现病例的数字化,提高诊断的精准度,并通过分析医学文献和病例的关联性,定位潜在的治疗方案。 什么是文档智能文档智能主要是指对于网页、数字文档或扫描文档所包含的文本以及丰富的排版格式等信息,通过人工智能技术进行理解、分类、提取以及信息归纳的过程。 文档智能技术 在过去的30年中,文档智能的发展大致经历了三个阶段。90年代初期,研究人员大多使用基于启发式规则的方法进行文档的理解与分析,通过人工观察文档的布局信息,总结归纳一些处理规则,对固定布局信息的文档进行处理。然而,传统基于规则的方法往往需要较大的人力成本,而且这些人工总结的规则可扩展性不强,因此研究人员开始采用基于统计学习的方法。随着机器学习技术的发展和进步,基于大规模标注数据驱动的机器学习模型成为了文档智能的主流方法,文档智能数字化转型技术基石全文共15页,当前为第2页。文档智能数字化转型技术基石全文共15页,当前为第2页。它通过人工设计的特征模板,利用有监督学习的方式在标注数据中学习不同特征的权重,以此来理解、分析文档的内容和布局。 文档智能数字化转型技术基石全文共15页,当前为第2页。 文档智能数字化转型技术基石全文共15页,当前为第2页。 基于深度学习特别是预训练技术文档智能模型,近几年受到越来越多的重视,大型科技公司纷纷推出相应的文档智能服务,包括微软、亚马逊、谷歌、IBM、阿里巴巴、百度等在内的很多公司在这个领域持续发力,对于许多传统行业的数字化转型提供了有力的支撑。 随着各类实际业务和产品的出现,文档智能领域的基准数据集也百花齐放,这些基准数据集通常包含了基于自然语言文本或图像的标注信息,涵盖了文档布局分析、表格识别、信息抽取等重要的文档智能任务,它们的出现也推动了文档智能技术的进一步发展。 文档智能相关的基准数据集 传统的文档理解和分析技术往往基于人工定制的规则或少量标注数据进行学习,这些方法虽然能够带来一定程度的性能提升,但由于定制规则和可学习的样本数量不足,其通用性往往不尽如人意,而且针对不同类别文档的分析迁移成本较高。随着深度学习预训练技术的发展,以及大量无标注电子文档的积累,文档分析与识别技术进入了一个全新的时代。 微软亚洲研究院提出的 LayoutLM 便是一个全新的文档理解模型,通过引入预训练技术,同时利用文本布局的局部不变性特征,可有效地将未标注文档的信息迁移到下游任务中。LayoutLM 的论文(论文链接:/abs/1912.13318)已被KDD 2020 接收,并将在下周举行的 KDD 大会上进行分享。同时,为了解决文档理解领域现有的数据集标文档智能数字化转型技术基石全文共15页,当前为第3页。文档智能数字化转型技术基石全文共15页,当前为第3页。注规模小、标注粒度大、多模态信息缺失等缺陷,微软亚洲研究院的研究员们还提出了大规模表格识别数据集 TableBank和大规模文档布局标注数据集 DocBank(论文链接:/abs/2006.01038),利用弱监督的方法,构建了高质量的文档布局细粒度标注。 文档智能数字化转型技术基石全文共15页,当前为第3页。 文档智能数字化转型技术基石全文共15页,当前为第3页。 LayoutLM:在预训练阶段实现文本和布局信息对齐 大量的研究成果表明,大规模预训练语言模型通过自监督任务,可在预训练阶段有效捕捉文本中蕴含的语义信息,经过下游任务微调后能有效的提升模型效果。然而,现有的预训练语言模型主要针对文本单一模态进行,忽视了文档本身与文本天然对齐的视觉结构信息。为了解决这一问题,研究员们提出了一种通用文档预训练模型LayoutLM[1][2],选择了文档结构信息(Document Layout Informat
工业4全文共3页,当前为第1页。工业4全文共3页,当前为第1页。工业中的智能工厂、智能生产、智能物流面向工业的智能工厂智能工厂是构成工业的核心元素。在智能工厂内不单要求单体设备是智能的,并且要求工厂内的全部设备、设备与资源〔机器、物流用具、原资料、产品等〕实现互通互联,以知足智能生产和智能物流的要求。经过互联网等通讯网络,使工厂内外的万物互联,形成崭新的业务模式。从某种意义上说,工业是用CPS系统对生产设备进行智能升级,使其能够智能地依据及时信息进行剖析、判断、自我调整、自动驱动生产,构成一个拥有自律分别型系统〔ADS〕的智能工厂,最后实现制造业的大规模、低本钱定制化生产。在建设智能工厂时,要要点关注模块化、数字化、自动化和智能化四大技术课题。模块化是实现智能工厂规模化生产和客户需求个性化定制的前提条件,这需要主要零零件供应商向模块供应商转型,全程参加产品设计、供应模式选择以及单元化物流的规划。数字化,纵向看是实现工厂内各个层面,以致每台设备数字化建模与互联互通;横向看,是打造从客户需求,到产品设计、供应商集成、制造以及物流效力的全流程供应链集成系统。智能化,制造公司应搭建一个虚实交融系统,依据客户个性化定制需求,实现虚构的设计、制造与装置,再经过智能工厂达成生产制造过程,有效解决定制产品周期长、效率低、本钱高的问题。在智能工厂里公司可与客户实现零距离对话,客户也可经过多种方式参加到产品"智造〞全过程中来。面向工业的智能生产 工业4全文共3页,当前为第1页。 工业4全文共3页,当前为第1页。 工业时代,跟着信息技术向制造业全面渗透, 可实现对生产因素的高灵巧配 工业4全文共3页,当前为第2页。工业4全文共3页,当前为第2页。置和大规模定制化生产,由此打破传统的生产流程、生产模式及管理方式。将来是智能联网式生产的时代,不单是单调工厂、而是公司多个工厂之间将经过联网建立起虚构制造系统,为公司生产供应全面智能支持。而标准化、模块化和数字化的产品设计,是实现智能生产的前提。德国汽车工业已抢先引入低本钱客户化定制的观点,产品设计实现了标准化与模块化,生产制造实现了全面信息化与深度自动化,根本抵达了智能生产、智能装置、智能物流以及智能供应链管理。以宝马3系为例,从325i到335i多个车型的发动机共用同一产线,绝全局部硬件是通用的,不过经过选配不一样的电控和软件产品来实现发动机产品多样 工业4全文共3页,当前为第2页。 工业4全文共3页,当前为第2页。 化,这类低本钱、定制化生产的核心根基即是标准化。为此,宝马能在不改变生产节拍的前提下,实现每台下线车型都能知足大规模定制的市场需求,即每一台宝马汽车都是依据客户化定制生产出来的。工业时代的制造公司不再自上而下地推进生产,而是从客户需求开始,实现订单、客户化设计,采买、物流、生产方案到生产的全流程拉式生产,并经过虚实交融实现各环节的互通互联。这类高效灵巧的拉动生产方式也代表着制造业将来的展开方向。面向工业的智能物流工业时代,客户需求高度个性化,产品创新周期持续缩短,生产节拍不停加速,这些不单是智能生产面对的重要课题,也是对支撑生产的物流系统提出的巨大挑战。智能物流是工业核心构成局部。在工业智能工厂框架内,智能物流是联接供应、制造和客户的重要环节,也是建立将来智能工厂的基石智能单元化物流技术、自动物流装备以及智能物流信息系统是打造智能物流的核心元素。 作为欧洲威望的物流规划和应用研究机构、 工业物流技术研发和应用研究的 工业4全文共3页,当前为第3页。工业4全文共3页,当前为第3页。前沿地,德国物流研究院〔FraunhoferIML〕自主研了inBin智能周箱技。通在周箱上加装感知与智能控制元,了物流元的智能化。智能箱既能自主管理箱内的存,又能向上系及告智能箱的状, 工业4全文共3页,当前为第3页。 工业4全文共3页,当前为第3页。 自要和的功能。鉴于智能箱的送系可采纳分别控制技,智能箱不再是被元,而是送系号施令的"主人〞。在智能箱的指下,送系能够自地将箱子送到目的地。另一方面,可通智能箱与智能物流〔如穿越〕集成,面向工的智能、高效、灵巧的物流系。2003年,德国物流研究院抢先研制出全世界首台型高速穿越MultiShuttle,开启了高柔性自化物流系的新元。在MultiShuttle基上,德国物流研究院于2021年研出可在架和地面行走的两栖穿越"魔浮〞MultiShuttleMove,打通了物流与生的壁。 2021年又推出可自行攀登的蜘蛛 RackRacer,打破了穿越技的最后 一个瓶——提高机流量的限制。与穿越小不一样的是, MultiShuttleMove每台小都能独立"思虑〞。即内行走程中,需要与哪些网通讯, 碰到阻碍物怎样理 都能够智能地独立解决。 工业4.0中智能工厂、智能生产、

13,009

社区成员

发帖
与我相关
我的任务
社区描述
CSDN 下载资源悬赏专区
其他 技术论坛(原bbs)
社区管理员
  • 下载资源悬赏专区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧