有谁知道超星文件是否可以转换成文本?

Liubin 2000-02-26 11:40:00
超星的类似图形的文件能否识别成txt?
...全文
728 17 打赏 收藏 转发到动态 举报
写回复
用AI写文章
17 条回复
切换为时间正序
请发表友善的回复…
发表回复
陈硕 2001-07-10
  • 打赏
  • 举报
回复
csdn2000():

超星最近的文件是.pdg后缀,可以从000001.pdg到999999.pdg
ashes 2001-07-10
  • 打赏
  • 举报
回复
关注
loafman 2001-07-10
  • 打赏
  • 举报
回复
还有一个办法。
1.直接用超星的浏览器打印功能。我是随便找了一个支持PS格式的高档激光打印机的驱动安装,设置其属性为打印到磁盘文件。然后用超星直接打印一个ps格式文件到磁盘。
2.用adobe acrobat把ps文件转成pdf文件。
3.用acrobat用pdf文件导出为一系列TIFF文件。可以自己设定分辨率。
4.用OCR软件转成TXT文件。
用这种方法,分辨率绝对是够了,我已经试过好多本书了。麻烦的只是校对,尤其是对于程序类书藉,中英文混排的,加上代码,让人头大。
w102272 2000-04-25
  • 打赏
  • 举报
回复
超星的技术是基于图象的,尺寸也不小。
比起dynadoc 和 Acrobat Reader都差很多。
你干吗非要转换这样的文件?如果考虑OCR的准确性,恐怕不比敲进去来得快!
allan 2000-04-24
  • 打赏
  • 举报
回复
yxwhrz is right, I just try it under his method. It can work.
grassdog 2000-03-15
  • 打赏
  • 举报
回复
如果有了图像格式,起码可以批量转换成TIF、GIF,然后网上诸位大侠合编一个专门的批量OCR不就更好吗!
grassdog 2000-03-15
  • 打赏
  • 举报
回复
看了yxwhrz的回答,觉得真是世上已千年啊!说实话以前还真研究过如何大量转换纸介质文本的问题,就是OCR识别率太低或图像压缩率太低。现在如果THOCR这么先进的话,倒真是福气。利用THOCR的批量识别,下班时设定10000份,第二天早晨自动OCR出来10000页,应该算不错的了。就是没有试过,另外也不知识别率到底到多少,好像超星好多页是歪的,加上校正图像和校对文字,可能还不如录入呢……
yxwhrz 2000-03-15
  • 打赏
  • 举报
回复
超星图像格式是一种压缩格式。在下曾花相当时间对其研究,目前可以说的只
有一条:HH加两数字是版本号,接下来的两个word是图像的长、宽。然后就是压缩数据。超星公司有一个OCX(见http://www.newhua.com的电子阅读页中的“超星阅读”程序的说明。但在下未找到过。需要说明的是,超星格式
用其阅读程序是可以进行缩放的,也可利用网络玫瑰的浏览程序进行阅读(在
阅读的实用性方面是不好的)。但若您下载在下推荐的模拟打印程序(将程序
的输出打印成一个个的tif文件),在打印时选择原倍(不缩小),其tif的分辨率对OCR软件来说是没大问题的。但在下在此说一下自己的看法:除非您确实需要,即使用OCR也是工作量很大的(若您有全文检索的必要,则此项工作值 得做)。因此,对特别重要的内容值得。关于图像的处理,在下已说过,将之
复制至形成的WORD文档(或RTF文档)即可。
radish 2000-03-14
  • 打赏
  • 举报
回复
我当了一个网络玫瑰不能用。
yxwhrz 2000-03-14
  • 打赏
  • 举报
回复
grassdog先生,您的看法值得商量。本人在电力部门工作,下载了全部电力工业标准,用网络玫瑰的浏览程序,将原文件打印成tif格式后,用thocr7.0识别效果是很好的!关键是您得按原倍(不要缩小打印)。超星的分辨率低,可能是您使用的超星阅读程序的版本较低的缘故,若使用较高版本,按原倍(不缩小),则分辨率是不低的!不过,需要指出的是,即使用OCR,工作量仍然很大。之所以推荐使用网络玫瑰的浏览程序,是因为该程序可连续“打印”若干范围的页数,而不是超星阅读程序的单页打印。再者使用在下推荐的模拟打印程序(将所有程序的输出“打印”成tif文件),若设置正确,可以自动递增文件名称。这样,可实现半“自动化”。
grassdog 2000-03-14
  • 打赏
  • 举报
回复
的确,超星格式是图像的,而且是自定义的图像压缩格式(虽然很容易转),重要的是:用OCR也不能转换成文本!为什么?因为超星的图像分辩率太低!
其实超星的初衷就是又“快”、又“省空间”。快,就是直接用扫描仪扫成标准TIFF图像,用编写的程序批量一转就得了;要想省空间,就要把扫描的图像(很大)压缩,怎么压缩,这图像基本是灰度或是黑白的,用不了JPG,当然就是减低分辨率了!所以用OCR决对不行,除非你自己编写识别程序!如果你能让程序识别这么低分辩率的图像,你造就发了!^_^
csdn2000 2000-03-10
  • 打赏
  • 举报
回复
如果超星文件可以不很费劲地转换成文本文件,国家图书馆就一定会其整理文本格式,既能解决可读性的问题,又能节省大量存储空间,另外使用者还可轻松COPY其中的文字。
超星文件的扩展名为001至999,好像不能超过1000页。
radish 2000-03-04
  • 打赏
  • 举报
回复
网络玫瑰的超星浏览程序在那下载?能否搞到辕马?
yxwhrz 2000-03-04
  • 打赏
  • 举报
回复
超星是图形格式(并且是压缩的)。要想将之转换成文本,只能用OCR软件,不过是很麻烦的。下面是步骤:
(1)用网络玫瑰的超星浏览程序(browser)较好阅读(该程序有打印功能,可以选定打印的范围,而不是单张打印故推荐之);
(2)在http://www.infomatik.com下载doc2tif(或称doc2pix)程序。该程序可将打印的内容存成为tif格式的图形文件。但该软件只能使用30天(其解密方法见后),其使用方法请参见该软件的Readme.doc;
(3)用网络玫瑰的浏览程序打开文件,选择打印,便可将选定的范围存成为一个个的tif图形(每页一个)。然后用OCR软件进行识别,校正,重新排版。对本身是图形的内容,可用截屏软件将之嵌入识别后的WORD文档中。
(4)Doc2pix文件的解密方法:用ULTREDIT等可对文件进行二进制编辑的软件进行:
a.改掉恼人的注册提示:查doc2pix.exe文件中的“52 FF15 7810 4000 8D85”,将“FF15 7810 4000”全部改为“90”(空操作)即可(本代码共有三个);
b.改掉已过期提示:查win98\system目录下的pntifmon.dll:
查“39BC 2460 0200 00 7413”(在地址167:1000126A处),将“7413”改为“EB13”;
查“83C4 0885 C0 7510 6A3F”,将其中的“7510”改为“EB10”。
c.修改第(2)同一文件:将“85C9 7443”改为“85C9 EB43”。
四十、解除WDEF.EXE(1.0.3)版的时间限制:
查找"FFD6 837DF002 0F85 D100 0000 8B45C4",将其中的"0F85 D100 0000"改为"E9D2 0000 0090"即可。
yxwhrz 2000-03-04
  • 打赏
  • 举报
回复
网络玫瑰的下载地址如下:http://vcspirit.yeah.net。该程序是专用来下载国家图书馆的书籍的。无源码可供。该程序下载后安装完毕即可用。有详细的说明。
yzhgry 2000-02-27
  • 打赏
  • 举报
回复
不能,肯定不能
radish 2000-02-27
  • 打赏
  • 举报
回复
谁能解决,我再送300分
超星图书转换利器 FreePic2Pdf 和 Pdg2Pic 最新绿色版(pdg转换成pdf),包含Pdg2Pic和FreePic2Pdf两部分软件。 Pdg2Pic 功能: 将PDG文件转成图像文件(包括TIFF、JPG、PNG),具有下列特色: 转换过程不占用系统剪贴板,因此在转换时,不影响用户在前台的正常工作。 在打开目录时自动对PDG文件进行格式统计,并报告结果。 可以自动将文件按封面、前言、目录、正文、附录的顺序排列,也可以手动调整。 提供预览功能,在转换前可以先浏览PDG图像和PDG文件信息。 如果转换过程中出现错误,将给出错误日志,便于定位有问题的PDG文件。 PDG文件的扫描DPI自动转存入TIFF、PNG文件,便于在转换成PDF文件时指定页面大小。 如果检查发现PDG文件是纯正的JPG文件,将不进行任何转换,直接将PDG复制为JPG;黑白PDG文件转存为采用CCITT G4压缩的TIFF文件,以获取高压缩比;灰度/彩色PDG重新压缩为有损的JPG或采用JPEG压缩的TIFF文件,或无损压缩的PNG文件 ,或JPEG 2000(JP2)文件(质量系数为100%时,JPEG 2000为无损压缩,否则为有损压缩)。 与FreePic2Pdf配合,能够自动生成PDF多级书签;能够在PDF文件中自动生成三段页码:封面、版权页用大写英文字母,目录页用小写罗马字母,正文页用阿拉伯数字;能够将BookInfo.dat作为文本添加到PDF文件中,并用其中内容填写PDF的Document Properties,包括Title、Author、Subject、Keyword。 能够将PDG文件直接OCR成文本文件。OCR引擎为微软Office 2003所带的Microsoft Office Document Imaging (MODI)。OCR时自动跳过封面、书名、版权、目录页。 Pdg2Pic基于超星浏览器的Pdg2控件实现,因此运行时需要在本地机上先安装超星浏览器,或注册一个能用的Pdg2.dll。本软件对超星浏览器3.8的支持没有问题,其它版本的超星浏览器没有试过。 PDG文件超星公司电子图书的专有格式,需要用超星公司的专用浏览器才能阅读。本人无意对超星公司的版权进行任何形式的侵犯,也不希望任何人用本工具从事侵权活动。如果需要浏览PDG电子书,请通过购买点卡等方式,以合法的途径获得。本软件假定用户通过合法的手段获得PDG文件,只是由于希望能够在比超星浏览器更好、更方便的浏览器上阅读,并且不对转换出来的文件进行扩散的情况下,才需要将PDG文件转换成图像文件。 FreePic2Pdf 功能: 将图像文件(包括TIFF、JPG、PNG、GIF、BMP、JPEG 2000)合并、转换成PDF文件的软件: 对有损/无损压缩的JPEG 2000、有损压缩的JPG文件及采用JPEG/OJPEG算法压缩的TIFF文件,直接将原始数据流嵌入PDF文件,避免因为重新压缩而造成图像质量下降;对无损压缩的图像文件,黑白图像解码后压缩为JBig2(有损或无损)或CCITT G4,其它解码后压缩成ZIP数据流嵌入PDF文件。 支持多页TIFF和多帧(动画)GIF,每页或每帧算一幅图像。 可以指定生成的PDF文件的页面大小(除A4、B5等,还支持国内常用的32开、16开、大32开)及页边距。如果不指定页面的纸张大小,可以指定页面的固定宽度(长度随图像大小伸缩),避免连续阅读时因为页面宽度变来变去而影响阅读。 支持通过接口自动生成多级书签、分段页码、添加文本页、设置PDF的Document Properties。 接口文件可以用于新生成的PDF,也可以用于已有的PDF,包括往已有的PDF上加书签、从PDF取书签等。 软件基于开源代码实现,运行时不需要任何第三方软件或控件的支持。当然如果要浏览制作出来的PDF文件,必须安装Adobe PDF Reader等PDF阅读软件。 使用步骤: 第1步:我们要先用到的是Pdg2Pic,由于这个软件在使用是要用到超星的Pdg2控件,所以我们要先把超星中的Pdg2.dll文件复制到WINDOWS文件夹下的SYSTEM32文件夹中(放到其他的地方行不行我还没有试过)然后点开始---运行---输入regsvr32 pdg2.dll 注册完成之后就可以使用Pdg2Pic了。 软件已经用1、2、3、4表示了操作步骤:先点击“1、选择需转换的PDG文件所在文件夹:” 选择你要转换的PDG文件夹后,这时先不要急着点“开始转换”因为经过第一步的选择文件夹之后,第2步的“选择存放转换出来的图象文件文件夹”也跟着默认的和需转换的PDG文件
软件简介   这是一个将图像文件(包括TIFF、JPG、JP2/J2K/JPC、PNG、GIF、BMP)合并、转换成PDF文件的软件。 FreePic2Pdf纯免费,并具有下列特色:   1. 对有损/无损压缩jpeg 2000(jp2/j2k/jpc)文件,或有损压缩JPG文件及采用JPEG/OJPEG算法压缩的TIFF文件,直接将原始数据流嵌入PDF文件,避免因为重新压缩而造成图像质量下降。   2. 对其它无损压缩图像文件,黑白图像解码后压缩为JBig2(有损/无损)或CCITT G4,其它解码后压缩成ZIP数据流嵌入PDF文件。虽然解码/压缩需要消耗一些时间,但是在多数情况下可以减小PDF文件长度。   3. 对于黑白图像,可以指定背景是否透明。如果透明,在PDF Reader中阅读时可以根据需要自行设置背景色(我习惯设为灰色),以免白底黑字看着太累。   4. 支持多页TIFF和多帧(动画)GIF,每页或每帧算一幅图像。   5. 可以指定生成的PDF文件的页面大小(除A4、B5等,还支持国内常用的32开、16开、大32开)及页边距,这种指定不会造成对图像数据流的重新采样或压缩,只影响PDF中描述图像显示大小的数据, 避免因为重新采样或压缩而造成图像质量下降。   6. 如果不指定页面的纸张大小,可以指定页面的固定宽度(长度随图像大小伸缩),保证连续阅读时不会因为页面宽度变来变去而影响阅读。   7. 可以选择需要转换的文件,也可以指定需要转换的文件夹;可以指定文件排序方式(按字母顺序、按末尾数字顺序、按超星顺序);可以将所有图像文件合并到一个PDF文件,也可以每个图像文件分别转换成一个PDF文件。   8. 支持通过接口自动生成多级书签(最多3000项)、分段页码、添加文本页、设置PDF的Document Properties。   9. 接口文件可以用于新生成的PDF,也可以用于已有的PDF,包括往已有的PDF上加书签(最多3000项)、从已有的PDF中抽取书签。   10. 生成的PDF文件中只包含必要的信息,因此在PDF质量不变的情况下,生成的PDF废话最少。   11. 软件基于开源代码实现,运行时不需要任何第三方软件或控件的支持。当然如果要浏览制作出来的PDF文件,您的机器上必须安装Adobe PDF Reader等PDF阅读软件。   总之, 在缺省情况下,FreePic2Pdf考虑的优先顺序为:图像质量、生成速度、PDF文件大小;通过设置可以改变为:图像质量、PDF文件大小、生成速度。

590

社区成员

发帖
与我相关
我的任务
社区描述
提出问题
其他 技术论坛(原bbs)
社区管理员
  • community_281
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧