有谁知道超星文件是否可以转换成文本?

Liubin 2000-02-26 11:40:00
超星的类似图形的文件能否识别成txt?
...全文
738 17 打赏 收藏 转发到动态 举报
写回复
用AI写文章
17 条回复
切换为时间正序
请发表友善的回复…
发表回复
陈硕 2001-07-10
  • 打赏
  • 举报
回复
csdn2000():

超星最近的文件是.pdg后缀,可以从000001.pdg到999999.pdg
ashes 2001-07-10
  • 打赏
  • 举报
回复
关注
loafman 2001-07-10
  • 打赏
  • 举报
回复
还有一个办法。
1.直接用超星的浏览器打印功能。我是随便找了一个支持PS格式的高档激光打印机的驱动安装,设置其属性为打印到磁盘文件。然后用超星直接打印一个ps格式文件到磁盘。
2.用adobe acrobat把ps文件转成pdf文件。
3.用acrobat用pdf文件导出为一系列TIFF文件。可以自己设定分辨率。
4.用OCR软件转成TXT文件。
用这种方法,分辨率绝对是够了,我已经试过好多本书了。麻烦的只是校对,尤其是对于程序类书藉,中英文混排的,加上代码,让人头大。
w102272 2000-04-25
  • 打赏
  • 举报
回复
超星的技术是基于图象的,尺寸也不小。
比起dynadoc 和 Acrobat Reader都差很多。
你干吗非要转换这样的文件?如果考虑OCR的准确性,恐怕不比敲进去来得快!
allan 2000-04-24
  • 打赏
  • 举报
回复
yxwhrz is right, I just try it under his method. It can work.
grassdog 2000-03-15
  • 打赏
  • 举报
回复
如果有了图像格式,起码可以批量转换成TIF、GIF,然后网上诸位大侠合编一个专门的批量OCR不就更好吗!
grassdog 2000-03-15
  • 打赏
  • 举报
回复
看了yxwhrz的回答,觉得真是世上已千年啊!说实话以前还真研究过如何大量转换纸介质文本的问题,就是OCR识别率太低或图像压缩率太低。现在如果THOCR这么先进的话,倒真是福气。利用THOCR的批量识别,下班时设定10000份,第二天早晨自动OCR出来10000页,应该算不错的了。就是没有试过,另外也不知识别率到底到多少,好像超星好多页是歪的,加上校正图像和校对文字,可能还不如录入呢……
yxwhrz 2000-03-15
  • 打赏
  • 举报
回复
超星图像格式是一种压缩格式。在下曾花相当时间对其研究,目前可以说的只
有一条:HH加两数字是版本号,接下来的两个word是图像的长、宽。然后就是压缩数据。超星公司有一个OCX(见http://www.newhua.com的电子阅读页中的“超星阅读”程序的说明。但在下未找到过。需要说明的是,超星格式
用其阅读程序是可以进行缩放的,也可利用网络玫瑰的浏览程序进行阅读(在
阅读的实用性方面是不好的)。但若您下载在下推荐的模拟打印程序(将程序
的输出打印成一个个的tif文件),在打印时选择原倍(不缩小),其tif的分辨率对OCR软件来说是没大问题的。但在下在此说一下自己的看法:除非您确实需要,即使用OCR也是工作量很大的(若您有全文检索的必要,则此项工作值 得做)。因此,对特别重要的内容值得。关于图像的处理,在下已说过,将之
复制至形成的WORD文档(或RTF文档)即可。
radish 2000-03-14
  • 打赏
  • 举报
回复
我当了一个网络玫瑰不能用。
yxwhrz 2000-03-14
  • 打赏
  • 举报
回复
grassdog先生,您的看法值得商量。本人在电力部门工作,下载了全部电力工业标准,用网络玫瑰的浏览程序,将原文件打印成tif格式后,用thocr7.0识别效果是很好的!关键是您得按原倍(不要缩小打印)。超星的分辨率低,可能是您使用的超星阅读程序的版本较低的缘故,若使用较高版本,按原倍(不缩小),则分辨率是不低的!不过,需要指出的是,即使用OCR,工作量仍然很大。之所以推荐使用网络玫瑰的浏览程序,是因为该程序可连续“打印”若干范围的页数,而不是超星阅读程序的单页打印。再者使用在下推荐的模拟打印程序(将所有程序的输出“打印”成tif文件),若设置正确,可以自动递增文件名称。这样,可实现半“自动化”。
grassdog 2000-03-14
  • 打赏
  • 举报
回复
的确,超星格式是图像的,而且是自定义的图像压缩格式(虽然很容易转),重要的是:用OCR也不能转换成文本!为什么?因为超星的图像分辩率太低!
其实超星的初衷就是又“快”、又“省空间”。快,就是直接用扫描仪扫成标准TIFF图像,用编写的程序批量一转就得了;要想省空间,就要把扫描的图像(很大)压缩,怎么压缩,这图像基本是灰度或是黑白的,用不了JPG,当然就是减低分辨率了!所以用OCR决对不行,除非你自己编写识别程序!如果你能让程序识别这么低分辩率的图像,你造就发了!^_^
csdn2000 2000-03-10
  • 打赏
  • 举报
回复
如果超星文件可以不很费劲地转换成文本文件,国家图书馆就一定会其整理文本格式,既能解决可读性的问题,又能节省大量存储空间,另外使用者还可轻松COPY其中的文字。
超星文件的扩展名为001至999,好像不能超过1000页。
radish 2000-03-04
  • 打赏
  • 举报
回复
网络玫瑰的超星浏览程序在那下载?能否搞到辕马?
yxwhrz 2000-03-04
  • 打赏
  • 举报
回复
超星是图形格式(并且是压缩的)。要想将之转换成文本,只能用OCR软件,不过是很麻烦的。下面是步骤:
(1)用网络玫瑰的超星浏览程序(browser)较好阅读(该程序有打印功能,可以选定打印的范围,而不是单张打印故推荐之);
(2)在http://www.infomatik.com下载doc2tif(或称doc2pix)程序。该程序可将打印的内容存成为tif格式的图形文件。但该软件只能使用30天(其解密方法见后),其使用方法请参见该软件的Readme.doc;
(3)用网络玫瑰的浏览程序打开文件,选择打印,便可将选定的范围存成为一个个的tif图形(每页一个)。然后用OCR软件进行识别,校正,重新排版。对本身是图形的内容,可用截屏软件将之嵌入识别后的WORD文档中。
(4)Doc2pix文件的解密方法:用ULTREDIT等可对文件进行二进制编辑的软件进行:
a.改掉恼人的注册提示:查doc2pix.exe文件中的“52 FF15 7810 4000 8D85”,将“FF15 7810 4000”全部改为“90”(空操作)即可(本代码共有三个);
b.改掉已过期提示:查win98\system目录下的pntifmon.dll:
查“39BC 2460 0200 00 7413”(在地址167:1000126A处),将“7413”改为“EB13”;
查“83C4 0885 C0 7510 6A3F”,将其中的“7510”改为“EB10”。
c.修改第(2)同一文件:将“85C9 7443”改为“85C9 EB43”。
四十、解除WDEF.EXE(1.0.3)版的时间限制:
查找"FFD6 837DF002 0F85 D100 0000 8B45C4",将其中的"0F85 D100 0000"改为"E9D2 0000 0090"即可。
yxwhrz 2000-03-04
  • 打赏
  • 举报
回复
网络玫瑰的下载地址如下:http://vcspirit.yeah.net。该程序是专用来下载国家图书馆的书籍的。无源码可供。该程序下载后安装完毕即可用。有详细的说明。
yzhgry 2000-02-27
  • 打赏
  • 举报
回复
不能,肯定不能
radish 2000-02-27
  • 打赏
  • 举报
回复
谁能解决,我再送300分

594

社区成员

发帖
与我相关
我的任务
社区描述
提出问题
其他 技术论坛(原bbs)
社区管理员
  • community_281
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧