求doc文件结构说明

zkzszd 2014-07-14 10:10:03
我今天刚来公司实习,公司让我分析doc、和ppt文件的内部结构,谁有中文的关于doc文件结构的说明书啊,或者c++打开doc文件获取内容的方法
...全文
563 32 打赏 收藏 转发到动态 举报
写回复
用AI写文章
32 条回复
切换为时间正序
请发表友善的回复…
发表回复
曾小红 2014-11-11
  • 打赏
  • 举报
回复
各位前辈,*.doc文件结构是什么样子的,可以发个文档不,谢谢;我的邮箱171525467@qq.com
zkzszd 2014-07-29
  • 打赏
  • 举报
回复
引用 30 楼 u013823973 的回复:
已收到,谢谢
你弄的怎么样了 ?
难题 2014-07-25
  • 打赏
  • 举报
回复
已收到,谢谢
zkzszd 2014-07-25
  • 打赏
  • 举报
回复
引用 28 楼 u013823973 的回复:
[quote=引用 27 楼 zkzszd 的回复:] [quote=引用 22 楼 u013823973 的回复:] 你好歹留个邮箱啊,不然我怎么发给你
嗯嗯 收到了 我大概看了下是怎么回事,谢谢了,好像用到了window函数了,我用不成,不过还是非常感谢[/quote] 就用了fread,fopen,fseek,memset,new,delete和STL的vector啊,这些其他平台应该都有吧 顺便求发个antiword的源码给我,我在网上找没找到,现在要对DOC的颜色和字体进行解析了,好麻烦啊[/quote] 不好意思 我这几天没上论坛,我这几天都在看antiword的源码 源码回给你了 antiword对word内容的版面做的还不错
难题 2014-07-24
  • 打赏
  • 举报
回复
引用 27 楼 zkzszd 的回复:
[quote=引用 22 楼 u013823973 的回复:] 你好歹留个邮箱啊,不然我怎么发给你
嗯嗯 收到了 我大概看了下是怎么回事,谢谢了,好像用到了window函数了,我用不成,不过还是非常感谢[/quote] 就用了fread,fopen,fseek,memset,new,delete和STL的vector啊,这些其他平台应该都有吧 顺便求发个antiword的源码给我,我在网上找没找到,现在要对DOC的颜色和字体进行解析了,好麻烦啊
zkzszd 2014-07-21
  • 打赏
  • 举报
回复
引用 24 楼 super_admi 的回复:
这绝对是你们组长给你挖的一个巨坑。 DOC文件的解析,这个玩意绝对可以开一个独立的项目了。 [quote=引用 5 楼 zkzszd 的回复:] [quote=引用 2 楼 mujiok2003 的回复:] 不要研究内部结构, 方向不要搞错了。 使用COM。
组长刚由给我强调的是,不能过分依赖系统库,需要做的是能够库平台的[/quote][/quote] 组长说的时不能依赖window的系统函数,要能够跨平台的,我现在在通过一个linux的开源库,然后把里面的函数封装成接口,让他们用就行,不过遇到难题了,那个库不能解析图片,如果有图片,就跳过图片正在郁闷中
kuankuan_qiao 2014-07-21
  • 打赏
  • 举报
回复
都好牛逼啊 我啥也不会 我在做visio的一对东西 哈哈
super_admi 2014-07-21
  • 打赏
  • 举报
回复
这绝对是你们组长给你挖的一个巨坑。 DOC文件的解析,这个玩意绝对可以开一个独立的项目了。
引用 5 楼 zkzszd 的回复:
[quote=引用 2 楼 mujiok2003 的回复:] 不要研究内部结构, 方向不要搞错了。 使用COM。
组长刚由给我强调的是,不能过分依赖系统库,需要做的是能够库平台的[/quote]
zkzszd 2014-07-21
  • 打赏
  • 举报
回复
引用 22 楼 u013823973 的回复:
你好歹留个邮箱啊,不然我怎么发给你
哦 忘记了 lnb@love.com
难题 2014-07-21
  • 打赏
  • 举报
回复
你好歹留个邮箱啊,不然我怎么发给你
zkzszd 2014-07-21
  • 打赏
  • 举报
回复
引用 22 楼 u013823973 的回复:
你好歹留个邮箱啊,不然我怎么发给你
嗯嗯 收到了 我大概看了下是怎么回事,谢谢了,好像用到了window函数了,我用不成,不过还是非常感谢
难题 2014-07-17
  • 打赏
  • 举报
回复
引用 18 楼 zkzszd 的回复:
[quote=引用 17 楼 u013823973 的回复:] [quote=引用 16 楼 zkzszd 的回复:] [quote=引用 14 楼 zkzszd 的回复:] [quote=引用 13 楼 u013823973 的回复:] 有资料了说一下啊 如果是用到手机上为什么不用JAVA写呢,JAVA有现成的库可用,好像是NOPI吧 如果是用C++的话,不用微软的COM好像是没有库的,只有用二进制来解析 如果是解析DOCX的话就简单多了,把它用ZIP解压,找到里面的DOCUMENT文件,递归读取里面<w:t>的数据就是文本了
公司要做的是安卓和苹果手机都能用的,并且和公司的书包业务有联系,反正我时郁闷了好多天了 [/quote] 目前我也没有资料 ,我就只是有个思路用openoffice库,或者自己去研究下openoffice是怎么做到的(我大概看了下源码,超级多,我的水平目前不好研究 ,郁闷)我刚问我们头了,头说只要我把word中得数据提取出来,显示格式不用管,感觉好痛苦,网上根本没什么资料[/quote] 如果是只要文字的话,过断时间为发个给你,DOC的,是用二进制解析的,就是fopen,fread。 DOCX的就很简单了,你可以自己去做做,非常简单[/quote] 嗯 ,那先谢谢啊 ,我要解析doc内容的,如果你发给我的可以参考 那我就学着去获取图片 就可以了 [/quote] 这段时间有点忙,周末发给你。只有读取DOC的文字,没有其他格式的,例如:字体颜色没搞出来。如果你有这方面的资料的话,发个给我。 不过说真的,现在解析DOC真的很麻烦而且估计过段时间就要被淘汰了,现在都在使用DOCX格式的。而且DOC格式的占用空间比较大,读取速度慢,最大容量小,等一些缺点
zkzszd 2014-07-17
  • 打赏
  • 举报
回复
引用 20 楼 u013823973 的回复:
[quote=引用 18 楼 zkzszd 的回复:] [quote=引用 17 楼 u013823973 的回复:] [quote=引用 16 楼 zkzszd 的回复:] [quote=引用 14 楼 zkzszd 的回复:] [quote=引用 13 楼 u013823973 的回复:] 有资料了说一下啊 如果是用到手机上为什么不用JAVA写呢,JAVA有现成的库可用,好像是NOPI吧 如果是用C++的话,不用微软的COM好像是没有库的,只有用二进制来解析 如果是解析DOCX的话就简单多了,把它用ZIP解压,找到里面的DOCUMENT文件,递归读取里面<w:t>的数据就是文本了
公司要做的是安卓和苹果手机都能用的,并且和公司的书包业务有联系,反正我时郁闷了好多天了 [/quote] 目前我也没有资料 ,我就只是有个思路用openoffice库,或者自己去研究下openoffice是怎么做到的(我大概看了下源码,超级多,我的水平目前不好研究 ,郁闷)我刚问我们头了,头说只要我把word中得数据提取出来,显示格式不用管,感觉好痛苦,网上根本没什么资料[/quote] 如果是只要文字的话,过断时间为发个给你,DOC的,是用二进制解析的,就是fopen,fread。 DOCX的就很简单了,你可以自己去做做,非常简单[/quote] 嗯 ,那先谢谢啊 ,我要解析doc内容的,如果你发给我的可以参考 那我就学着去获取图片 就可以了 [/quote] 这段时间有点忙,周末发给你。只有读取DOC的文字,没有其他格式的,例如:字体颜色没搞出来。如果你有这方面的资料的话,发个给我。 不过说真的,现在解析DOC真的很麻烦而且估计过段时间就要被淘汰了,现在都在使用DOCX格式的。而且DOC格式的占用空间比较大,读取速度慢,最大容量小,等一些缺点[/quote] 我目前在尝试着,用linux上得antiword库来提取word文件的内容,现在在看源码,这个库可以很好的提取doc里的文字,不知道字体的格式是否能够得到,等我把这个库了解一下,看看是否可以得到格式,好告诉你结果 我现在在尝试可行的方法
zkzszd 2014-07-16
  • 打赏
  • 举报
回复
引用 14 楼 zkzszd 的回复:
[quote=引用 13 楼 u013823973 的回复:] 有资料了说一下啊 如果是用到手机上为什么不用JAVA写呢,JAVA有现成的库可用,好像是NOPI吧 如果是用C++的话,不用微软的COM好像是没有库的,只有用二进制来解析 如果是解析DOCX的话就简单多了,把它用ZIP解压,找到里面的DOCUMENT文件,递归读取里面<w:t>的数据就是文本了
公司要做的是安卓和苹果手机都能用的,并且和公司的书包业务有联系,反正我时郁闷了好多天了 [/quote] 目前我也没有资料 ,我就只是有个思路用openoffice库,或者自己去研究下openoffice是怎么做到的(我大概看了下源码,超级多,我的水平目前不好研究 ,郁闷)我刚问我们头了,头说只要我把word中得数据提取出来,显示格式不用管,感觉好痛苦,网上根本没什么资料
zkzszd 2014-07-16
  • 打赏
  • 举报
回复
引用 12 楼 yangyunzhao 的回复:
要不看看这个? http://www.doc88.com/p-27480968709.html
大概介绍我看过了,现在在找c++的借口,或者开源库
zkzszd 2014-07-16
  • 打赏
  • 举报
回复
引用 13 楼 u013823973 的回复:
有资料了说一下啊 如果是用到手机上为什么不用JAVA写呢,JAVA有现成的库可用,好像是NOPI吧 如果是用C++的话,不用微软的COM好像是没有库的,只有用二进制来解析 如果是解析DOCX的话就简单多了,把它用ZIP解压,找到里面的DOCUMENT文件,递归读取里面<w:t>的数据就是文本了
公司要做的是安卓和苹果手机都能用的,并且和公司的书包业务有联系,反正我时郁闷了好多天了
ma100 2014-07-16
  • 打赏
  • 举报
回复
组长不靠谱 内部格式总是可以搞到的,可研究了半天有什么意义呢, 跨平台?windows有接口,linux有源码
zkzszd 2014-07-16
  • 打赏
  • 举报
回复
引用 17 楼 u013823973 的回复:
[quote=引用 16 楼 zkzszd 的回复:] [quote=引用 14 楼 zkzszd 的回复:] [quote=引用 13 楼 u013823973 的回复:] 有资料了说一下啊 如果是用到手机上为什么不用JAVA写呢,JAVA有现成的库可用,好像是NOPI吧 如果是用C++的话,不用微软的COM好像是没有库的,只有用二进制来解析 如果是解析DOCX的话就简单多了,把它用ZIP解压,找到里面的DOCUMENT文件,递归读取里面<w:t>的数据就是文本了
公司要做的是安卓和苹果手机都能用的,并且和公司的书包业务有联系,反正我时郁闷了好多天了 [/quote] 目前我也没有资料 ,我就只是有个思路用openoffice库,或者自己去研究下openoffice是怎么做到的(我大概看了下源码,超级多,我的水平目前不好研究 ,郁闷)我刚问我们头了,头说只要我把word中得数据提取出来,显示格式不用管,感觉好痛苦,网上根本没什么资料[/quote] 如果是只要文字的话,过断时间为发个给你,DOC的,是用二进制解析的,就是fopen,fread。 DOCX的就很简单了,你可以自己去做做,非常简单[/quote] 嗯 ,那先谢谢啊 ,我要解析doc内容的,如果你发给我的可以参考 那我就学着去获取图片 就可以了
难题 2014-07-16
  • 打赏
  • 举报
回复
引用 16 楼 zkzszd 的回复:
[quote=引用 14 楼 zkzszd 的回复:] [quote=引用 13 楼 u013823973 的回复:] 有资料了说一下啊 如果是用到手机上为什么不用JAVA写呢,JAVA有现成的库可用,好像是NOPI吧 如果是用C++的话,不用微软的COM好像是没有库的,只有用二进制来解析 如果是解析DOCX的话就简单多了,把它用ZIP解压,找到里面的DOCUMENT文件,递归读取里面<w:t>的数据就是文本了
公司要做的是安卓和苹果手机都能用的,并且和公司的书包业务有联系,反正我时郁闷了好多天了 [/quote] 目前我也没有资料 ,我就只是有个思路用openoffice库,或者自己去研究下openoffice是怎么做到的(我大概看了下源码,超级多,我的水平目前不好研究 ,郁闷)我刚问我们头了,头说只要我把word中得数据提取出来,显示格式不用管,感觉好痛苦,网上根本没什么资料[/quote] 如果是只要文字的话,过断时间为发个给你,DOC的,是用二进制解析的,就是fopen,fread。 DOCX的就很简单了,你可以自己去做做,非常简单
难题 2014-07-15
  • 打赏
  • 举报
回复
有资料了说一下啊 如果是用到手机上为什么不用JAVA写呢,JAVA有现成的库可用,好像是NOPI吧 如果是用C++的话,不用微软的COM好像是没有库的,只有用二进制来解析 如果是解析DOCX的话就简单多了,把它用ZIP解压,找到里面的DOCUMENT文件,递归读取里面<w:t>的数据就是文本了
加载更多回复(12)

64,654

社区成员

发帖
与我相关
我的任务
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++ 技术论坛(原bbs)
社区管理员
  • C++ 语言社区
  • encoderlee
  • paschen
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  1. 请不要发布与C++技术无关的贴子
  2. 请不要发布与技术无关的招聘、广告的帖子
  3. 请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧