一个关于文本处理的问题

gcd0318 2004-09-07 10:59:00
现在有一个中英文混排的文本文件,比如一个HTML网页的代码,要把其中的英文部分全替换成空格,怎么实现?如果还要把标点符号也替换成空格呢?也就是说最后只保留被空格分开的一些汉字串,但是原本连写的汉字不能被分开,多个连在一起的英文字符——比如一个单词——可以只被替换成一个空格。
...全文
88 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
gcd0318 2004-09-09
  • 打赏
  • 举报
回复
目前偶采用的是每次读一个字节的ASCII,然后和127比较来判断是不是字母,但是只对半角有效,全角的字母数字和各种符号都不能查出来。这些符号的编码有什么规律吗?
gcd0318 2004-09-07
  • 打赏
  • 举报
回复
那么全角字符怎么办
zzwu 2004-09-07
  • 打赏
  • 举报
回复
另外,扫描一遍,速度是很快的.复杂性只有O(n)嘛!
zzwu 2004-09-07
  • 打赏
  • 举报
回复
另外,扫描一遍,速度是很快的.复杂性只有是O(n)嘛!
zzwu 2004-09-07
  • 打赏
  • 举报
回复
除了全文遍历,难道还会可能有别的办法吗?

"扫帚不到,灰尘不会跑了",

同样,文件一个地方没有遍历到,那里的英文字母就不会去掉.

gcd0318 2004-09-07
  • 打赏
  • 举报
回复
标点都去掉,包括全角标点。
除了全文遍历难道就没有别的办法?
这样要对每个字符进行判断和比较编码值
而且全角标点的处理确实麻烦,偶甚至想构造一个字母表然后去比较
zzwu 2004-09-07
  • 打赏
  • 举报
回复
这里没有讲明,"中文标点符号"应看成中文呢,还是看成标点?

如要看做中文,则需要保留,比较方便;

如要看做标点,则需要去掉,就比较麻烦,需要了解每一个中文标点的具体代码.
zzwu 2004-09-07
  • 打赏
  • 举报
回复
可以根据英文和标点的代码和汉字代码的差别,从头到尾搜索整个文本,一一确定哪些字符要保留,哪些要改为空格.

dukcho 2004-09-07
  • 打赏
  • 举报
回复
支持采用扫描,根据算法中的查找理论,你如果要去处那些字母必须至少遍历一遍;
可以对文件进行处理,根据汉字的编码和ASCII不同(汉字双字节的第一位为1),这样就把所有ASCII修改为空格。标点同样可以根据编码值得不同来进行处理!

33,010

社区成员

发帖
与我相关
我的任务
社区描述
数据结构与算法相关内容讨论专区
社区管理员
  • 数据结构与算法社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧