广发英雄帖.. 加散分..求最佳解决方式. 大家集思广益哈... (单纯顶者无分.事先说好..).

cydp007 2008-10-14 08:52:58
?Zd;?sh戫|?@A Better Tomorrow 一个更好的明天 D媗琨?@殭櫃橸,@?passage>People often #<click=#wonder>wonder</click> why historians go to so much trouble to #<click=#preserve>preserve</click> millions of books, documents and records of the past. R人们常常心存疑虑,为什么历史学家要费尽周折地保存数以万计的过去的书籍、文献和记录。 吞烫虒,@殭櫃檡0@Why do we have libraries? 我们为什么要有图书馆呢? =
變0@P崡nc4@5What good are these documents and the history books? 这些文献和史书有何用处呢? J+嚃4@呺Q?=@iWhy do we record and save the actions of men, the negotiations of statesmen and the campaigns of armies? >我们为什么要记载并保存人类的行为、政治家的谈判和军队的战役呢? 傥鱏c=@削S悭鸄@\<passage>Because, sometimes, the voice of experience can cause us to stop, look and listen. 0因为,有时候经验之音能促使我们停步、观察和倾听。 ?/?B@削S悭婩@sAnd because, sometimes, past records, correctly interpreted, can give us warning of what to do and what not to do. X也因为有时候过去的记载经过正确的诠释,可以给我们一种警示,告诉我们何事可做、何事不可做。 q=
祝燜@顋?5^:L@?passage>If we are ever to #<click=#create>create</click> enduring peace, we must seek its origins in human experience and in the record of human idealism. P如果我们想要永保和平,我们就必须从人类经验以及人类追求理想的历程中去探索其渊源。 D媗琨IL@悯(\廱P@mFrom the story of the fortitude, courage and devotion of men and women, we create the inspirations of youth. J从体现男性和女性不屈不挠、勇敢和奉献精神的故事之中,我们获得了青春的启示。 F扼pP@R?呺!T@矲rom stories of the Christian martyrs, right down to Budapest's heroic martyrs of today, history records the suffering, the self-denial, the devotion and the heroic deeds of men. `远自基督教殉道者,近到布达佩斯的当代英勇烈士,历史记载着人类的一切苦难、克己、忠诚和英勇的事迹。 m琨*T@呺Q付V@|Surely from these records there can come help to mankind in our confusions and perplexities and in our yearnings for peace. >当然,那些记载一定会对处于困惑、茫然和渴望和平的人们有所助益。 J+嚲V@溎 皉萕@T<passage>The #<click=#supreme>supreme</click> purpose of history is a better world. (历史的终极目的是创造一个更加美好的世界。 !皉h懲W@L7堿`臱@QHistory gives a warning to those who would #<click=#promote>promote</click> war. 历史对那些力主战争的人加以警告。 w緹/蚗@D媗琨蒠@QHistory brings #<click=#inspiration>inspiration</click> to those who seek peace. 对于那些追寻和平的人予以启示。 R?呺裏@D媗琨橺@"In short, history helps us learn. 简而言之,历史帮助我们学习。 x?@?皉h馵@EYesterday's records can keep us from repeating yesterday's mistakes. "昨日的记载可以使我们避免重蹈覆辙。 =
[@F扼P^@uAnd from the pieces of mosaic assembled by historians come the great murals which represent the progress of mankind. L而这些由历史学家所汇集的镶嵌图案艺术品,将会逐渐成为表现人类进步的伟大壁画。



这是一段文本.. 要求是. 将里面的 中文 以及 英文 全部另外输出.. 用正则..

可以注意一下的是.这是一段 译文.. 有英文 有译文..

"[^\u4E00-\u9FA5]"


我现在只可以通过这个正则匹配出所有的中文.但是中文里面还是会有中文的乱码捣乱.所以. .. 而且标点符号也丢了.

目的只有一个. 就是 把 英文 跟译文 分别输出.. 不要黏在一起就好..不管出现在几个文件中.


gangbade!!!(加油吧.)
...全文
257 39 打赏 收藏 转发到动态 举报
写回复
用AI写文章
39 条回复
切换为时间正序
请发表友善的回复…
发表回复
  • 打赏
  • 举报
回复
这是个二进制文件强行使用文本编辑器打开所得到的结果,用文本方式去分析的话根本不可能完成。

可以看看这是个什么文件,再去找找这个文件的格式定义使用二进制方式进行处理。
sunyujia 2008-10-15
  • 打赏
  • 举报
回复
[Quote=引用 26 楼 cydp007 的回复:]
引用 25 楼 sunyujia 的回复:

原来你是做小偷程序啊,呵呵。这种东西,即便火龙果大师出马,写出来估计bug也超多,何不说出实际需求。
从别的网站搞回来,人家一改,或标签不标准就不好弄啦,写代码写出来也没有维护性可言,比较难,帮不上忙。你换个需求倒是可以来看看。


这你就误解我了..绝对不是 小偷程序.

这是我下的新东方背诵里面的 是有相应的音频的.. 原来是 log 文件.我从程序里面找出来. 希望做…
[/Quote]
误解你了,不好意思,太像小偷程序了,呵呵。那没别的方法了就解析吧,比较难先把乱码的部分去掉会好处理些吧,只保留gb2312库的内容就行了。
cydp007 2008-10-15
  • 打赏
  • 举报
回复
[Quote=引用 28 楼 java2000_net 的回复:]
被人混淆了的文字,我根本不指望程序能识别出来
媗琨
这个到底是正常的内容,还是混淆的部分。
建议你把html的代码发上来,那个才是关键。必要只给你复制粘贴的文字部分。哈哈!
[/Quote]

紫竹大哥..这个不是网页文件..

这是我在一个程序文件里面 copy 出来的.. 出来就是这个样子. 一段mp3 对应一段这个文件. 这个文件包含了mp3的英文和中文译文.

就想解析一下. 真正的文字被混淆的很少. 尽量还原才是本质..
cydp007 2008-10-15
  • 打赏
  • 举报
回复
[Quote=引用 25 楼 sunyujia 的回复:]

原来你是做小偷程序啊,呵呵。这种东西,即便火龙果大师出马,写出来估计bug也超多,何不说出实际需求。
从别的网站搞回来,人家一改,或标签不标准就不好弄啦,写代码写出来也没有维护性可言,比较难,帮不上忙。你换个需求倒是可以来看看。
[/Quote]

这你就误解我了..绝对不是 小偷程序.

这是我下的新东方背诵里面的 是有相应的音频的.. 原来是 log 文件.我从程序里面找出来. 希望做成 txt文件. 然后早读的时候拿去背

背的. 边听边记忆...我这么好的想法. 被你说成小偷程序..唉..


乱码看起来有点像从别的论坛转贴过来的是不..呵呵..
lgstart 2008-10-15
  • 打赏
  • 举报
回复
改改正文吧,看的都头晕了
rmouse_2005 2008-10-15
  • 打赏
  • 举报
回复
@rom stories of the Christian martyrs, right down to Budapest's heroic martyrs of today, history records the suffering, the self-denial, the devotion and the heroic deeds of men. `远自基督教殉道者,近到布达佩斯的当代英勇烈士,历史记载着人类的一切苦难、克己、忠诚和英勇的事迹。

这句明显不能解析啊
英文开头应该是From吧
每个英文开头都有一个@加一个字节
xuhua205 2008-10-15
  • 打赏
  • 举报
回复
up
liky5387 2008-10-15
  • 打赏
  • 举报
回复
这一切,是否不太可能....别费工夫了......
r_swordsman 2008-10-15
  • 打赏
  • 举报
回复
lz你是从别的网页上负责来的吧?乱码是复制的时候脚本加上去的,都加在每行的末尾,对吧?
把脚本禁用掉就没乱码了
caowei1106 2008-10-15
  • 打赏
  • 举报
回复
~
老紫竹 2008-10-15
  • 打赏
  • 举报
回复
被人混淆了的文字,我根本不指望程序能识别出来
媗琨
这个到底是正常的内容,还是混淆的部分。
建议你把html的代码发上来,那个才是关键。必要只给你复制粘贴的文字部分。哈哈!
sagezk 2008-10-15
  • 打赏
  • 举报
回复
拿二进制文件编辑器打开文件找找文件格式的线索,比如反复出现的中文英文分割用的相同二进制序列等等。
sagezk 2008-10-15
  • 打赏
  • 举报
回复
[Quote=引用 36 楼 bao110908 的回复:]
这是个二进制文件强行使用文本编辑器打开所得到的结果,用文本方式去分析的话根本不可能完成。

可以看看这是个什么文件,再去找找这个文件的格式定义使用二进制方式进行处理。
[/Quote]

文件格式是关键。
huangyangweiyue 2008-10-15
  • 打赏
  • 举报
回复
乱码问题怎么文本里好似不得处理,可以用流读不?
sunyujia 2008-10-14
  • 打赏
  • 举报
回复
[Quote=引用 22 楼 cydp007 的回复:]
嗯..不具备通用性..

我也很期待果果大哥来啊. 大师那是..
[/Quote]
原来你是做小偷程序啊,呵呵。这种东西,即便火龙果大师出马,写出来估计bug也超多,何不说出实际需求。
从别的网站搞回来,人家一改,或标签不标准就不好弄啦,写代码写出来也没有维护性可言,比较难,帮不上忙。你换个需求倒是可以来看看。
peter_fang 2008-10-14
  • 打赏
  • 举报
回复
学习...
qiandongbo 2008-10-14
  • 打赏
  • 举报
回复
没办法,我举几个比较难匹配的地方
@?皉h馵@EYesterday's
?/?B@削S悭婩@sAnd
如果单纯匹配,就会把前面乱码中的字符串也给匹配进去~
想了很多也没想到通用的方法~
cydp007 2008-10-14
  • 打赏
  • 举报
回复
嗯..不具备通用性..

我也很期待果果大哥来啊. 大师那是..
qiandongbo 2008-10-14
  • 打赏
  • 举报
回复
String regex1="((a\\s)|(Yesterday's\\s)|([a-zA-Z\\-][a-z\\-]+(\\s+|,|\\.|\\?))+)";
英文的更正一下,总算匹配全E了,不过这样的正则总有凑数的嫌疑,等火龙来看看吧
qiandongbo 2008-10-14
  • 打赏
  • 举报
回复
不行,智能ABC下的 标点符号 根本就匹配不了~E文的话,我标点符号全匹配好了,直接
连接就行了~
加载更多回复(19)

62,614

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧