社区
community_281
帖子详情
有谁知道超星文件是否可以转换成文本?
Liubin
2000-02-26 11:40:00
超星的类似图形的文件能否识别成txt?
...全文
738
17
打赏
收藏
有谁知道超星文件是否可以转换成文本?
超星的类似图形的文件能否识别成txt?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
17 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
陈硕
2001-07-10
打赏
举报
回复
csdn2000():
超星最近的文件是.pdg后缀,可以从000001.pdg到999999.pdg
ashes
2001-07-10
打赏
举报
回复
关注
loafman
2001-07-10
打赏
举报
回复
还有一个办法。
1.直接用超星的浏览器打印功能。我是随便找了一个支持PS格式的高档激光打印机的驱动安装,设置其属性为打印到磁盘文件。然后用超星直接打印一个ps格式文件到磁盘。
2.用adobe acrobat把ps文件转成pdf文件。
3.用acrobat用pdf文件导出为一系列TIFF文件。可以自己设定分辨率。
4.用OCR软件转成TXT文件。
用这种方法,分辨率绝对是够了,我已经试过好多本书了。麻烦的只是校对,尤其是对于程序类书藉,中英文混排的,加上代码,让人头大。
w102272
2000-04-25
打赏
举报
回复
超星的技术是基于图象的,尺寸也不小。
比起dynadoc 和 Acrobat Reader都差很多。
你干吗非要转换这样的文件?如果考虑OCR的准确性,恐怕不比敲进去来得快!
allan
2000-04-24
打赏
举报
回复
yxwhrz is right, I just try it under his method. It can work.
grassdog
2000-03-15
打赏
举报
回复
如果有了图像格式,起码可以批量转换成TIF、GIF,然后网上诸位大侠合编一个专门的批量OCR不就更好吗!
grassdog
2000-03-15
打赏
举报
回复
看了yxwhrz的回答,觉得真是世上已千年啊!说实话以前还真研究过如何大量转换纸介质文本的问题,就是OCR识别率太低或图像压缩率太低。现在如果THOCR这么先进的话,倒真是福气。利用THOCR的批量识别,下班时设定10000份,第二天早晨自动OCR出来10000页,应该算不错的了。就是没有试过,另外也不知识别率到底到多少,好像超星好多页是歪的,加上校正图像和校对文字,可能还不如录入呢……
yxwhrz
2000-03-15
打赏
举报
回复
超星图像格式是一种压缩格式。在下曾花相当时间对其研究,目前可以说的只
有一条:HH加两数字是版本号,接下来的两个word是图像的长、宽。然后就是压缩数据。超星公司有一个OCX(见http://www.newhua.com的电子阅读页中的“超星阅读”程序的说明。但在下未找到过。需要说明的是,超星格式
用其阅读程序是可以进行缩放的,也可利用网络玫瑰的浏览程序进行阅读(在
阅读的实用性方面是不好的)。但若您下载在下推荐的模拟打印程序(将程序
的输出打印成一个个的tif文件),在打印时选择原倍(不缩小),其tif的分辨率对OCR软件来说是没大问题的。但在下在此说一下自己的看法:除非您确实需要,即使用OCR也是工作量很大的(若您有全文检索的必要,则此项工作值 得做)。因此,对特别重要的内容值得。关于图像的处理,在下已说过,将之
复制至形成的WORD文档(或RTF文档)即可。
radish
2000-03-14
打赏
举报
回复
我当了一个网络玫瑰不能用。
yxwhrz
2000-03-14
打赏
举报
回复
grassdog先生,您的看法值得商量。本人在电力部门工作,下载了全部电力工业标准,用网络玫瑰的浏览程序,将原文件打印成tif格式后,用thocr7.0识别效果是很好的!关键是您得按原倍(不要缩小打印)。超星的分辨率低,可能是您使用的超星阅读程序的版本较低的缘故,若使用较高版本,按原倍(不缩小),则分辨率是不低的!不过,需要指出的是,即使用OCR,工作量仍然很大。之所以推荐使用网络玫瑰的浏览程序,是因为该程序可连续“打印”若干范围的页数,而不是超星阅读程序的单页打印。再者使用在下推荐的模拟打印程序(将所有程序的输出“打印”成tif文件),若设置正确,可以自动递增文件名称。这样,可实现半“自动化”。
grassdog
2000-03-14
打赏
举报
回复
的确,超星格式是图像的,而且是自定义的图像压缩格式(虽然很容易转),重要的是:用OCR也不能转换成文本!为什么?因为超星的图像分辩率太低!
其实超星的初衷就是又“快”、又“省空间”。快,就是直接用扫描仪扫成标准TIFF图像,用编写的程序批量一转就得了;要想省空间,就要把扫描的图像(很大)压缩,怎么压缩,这图像基本是灰度或是黑白的,用不了JPG,当然就是减低分辨率了!所以用OCR决对不行,除非你自己编写识别程序!如果你能让程序识别这么低分辩率的图像,你造就发了!^_^
csdn2000
2000-03-10
打赏
举报
回复
如果超星文件可以不很费劲地转换成文本文件,国家图书馆就一定会其整理文本格式,既能解决可读性的问题,又能节省大量存储空间,另外使用者还可轻松COPY其中的文字。
超星文件的扩展名为001至999,好像不能超过1000页。
radish
2000-03-04
打赏
举报
回复
网络玫瑰的超星浏览程序在那下载?能否搞到辕马?
yxwhrz
2000-03-04
打赏
举报
回复
超星是图形格式(并且是压缩的)。要想将之转换成文本,只能用OCR软件,不过是很麻烦的。下面是步骤:
(1)用网络玫瑰的超星浏览程序(browser)较好阅读(该程序有打印功能,可以选定打印的范围,而不是单张打印故推荐之);
(2)在http://www.infomatik.com下载doc2tif(或称doc2pix)程序。该程序可将打印的内容存成为tif格式的图形文件。但该软件只能使用30天(其解密方法见后),其使用方法请参见该软件的Readme.doc;
(3)用网络玫瑰的浏览程序打开文件,选择打印,便可将选定的范围存成为一个个的tif图形(每页一个)。然后用OCR软件进行识别,校正,重新排版。对本身是图形的内容,可用截屏软件将之嵌入识别后的WORD文档中。
(4)Doc2pix文件的解密方法:用ULTREDIT等可对文件进行二进制编辑的软件进行:
a.改掉恼人的注册提示:查doc2pix.exe文件中的“52 FF15 7810 4000 8D85”,将“FF15 7810 4000”全部改为“90”(空操作)即可(本代码共有三个);
b.改掉已过期提示:查win98\system目录下的pntifmon.dll:
查“39BC 2460 0200 00 7413”(在地址167:1000126A处),将“7413”改为“EB13”;
查“83C4 0885 C0 7510 6A3F”,将其中的“7510”改为“EB10”。
c.修改第(2)同一文件:将“85C9 7443”改为“85C9 EB43”。
四十、解除WDEF.EXE(1.0.3)版的时间限制:
查找"FFD6 837DF002 0F85 D100 0000 8B45C4",将其中的"0F85 D100 0000"改为"E9D2 0000 0090"即可。
yxwhrz
2000-03-04
打赏
举报
回复
网络玫瑰的下载地址如下:http://vcspirit.yeah.net。该程序是专用来下载国家图书馆的书籍的。无源码可供。该程序下载后安装完毕即可用。有详细的说明。
yzhgry
2000-02-27
打赏
举报
回复
不能,肯定不能
radish
2000-02-27
打赏
举报
回复
谁能解决,我再送300分
超
星
图书
转换
利器Pdg2Pic
可以方便的把图书
转换
成
图片
文件
,支持多种图片格式。 如果您觉得图片还是不方便,可以用PhotoShop
转换
成
PDF
文件
,或者通过虚拟PDF打印机等方式
转换
成
PDF格式。 -------------------------------- 1、新增功能:JPG...
超
星
图书
转换
利器 FreePic2Pdf 和 Pdg2Pic 最新绿色版(pdg
转换
成
pdf)
超
星
浏览器对JPG
文件
的容错能力很差,在打开PDG
文件
时,如果PDG原始格式是JPG,而数据又有错,很容易造
成
超
星
浏览器中断退出。此功能就是用来将出错的
文件
尽量修复
成
无错的JPG。 2、功能增强:能够识别并报告
转换
...
PDG
文件
批量
转换
PDF
本软件假定用户通过合法的手段获得PDG
文件
,只是由于希望能够在比
超
星
浏览器更好、更方便的浏览器上阅读,并且不对
转换
出来的
文件
进行扩散的情况下,才需要将PDG
文件
转换
成
图像
文件
。 FreePic2Pdf 功能: 将图像...
txt
文件
编码
转换
工具软件
★ 关于
文件
格式 ★ 如果
文件
扩展名是RAR,该
文件
为压缩格式!请您用WINRAR解压! 1.后缀名为*.chm、*.exe的电子书,不需安装任何软件即可直阅读. 2.后缀名为*.pdf的电子书,需安装Arcobat Reader软件. 3.后缀名为...
图片转PDF的好工具FreePic2Pdf
接口
文件
可以用于新生
成
的PDF,也可以用于已有的PDF,包括往已有的PDF上加书签(最多3000项)、从已有的PDF中抽取书签。 10. 生
成
的PDF
文件
中只包含必要的信息,因此在PDF质量不变的情况下,生
成
的PDF废话最少。 ...
community_281
594
社区成员
254,047
社区内容
发帖
与我相关
我的任务
community_281
提出问题
复制链接
扫一扫
分享
社区描述
提出问题
其他
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章