C# PDF转Word

「已注销」 2015-10-30 10:32:53
目前在做银行征信报告的数据抓取功能,由于银行征信报告版本较多,分为DOC、DOCX、PDF、HTML等格式文件,且同格式的情况下,里面内容还分版本,不同版本排版不同内容也有出入,目前已做DOC、DOCX格式其中一版本数据抓取,即将要做PDF格式的抓取,由于我对DOC、DOCX格式的抓取方式为通过office组件转换为HTML格式,在用正则匹配相关信息。故为了开发进度以及简洁角度考虑,打算将PDF格式转为DOC、DOCX后,在调用office组件使用同方法(转换为HTML)执行抓取,但目前似乎没发现有可以这样转换的写法,希望大家给一些建议,了解部分操作PDF组件的插件,如iTextSharp,PDFBox,Adobe Reader,Aspose,但仅仅使用过iTextSharp,而且用的还不熟练。
格式如下,希望大家给个建议参考~如何可以正确抓取PDF文件信息中的内容,由于每一个信息的字段都是单独存储的,要求准确性较高,在线等,由于银行征信报告属于个人隐私,所以对敏感数据做处理,请谅解~






...全文
265 1 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
海会圣贤 2015-10-31
  • 打赏
  • 举报
回复
只弄过用iTextSharp根据html生成pdf的,例子:C#根据html生成PDF 不知道反过来行不行。 还有一个例子: FlexPaper+SWFTools 实现仿百度文库及一些小问题,你看看对你有没有用处。

62,243

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧