一个关于文本处理的问题

gcd0318 2004-09-07 10:59:00

现在有一个中英文混排的文本文件，比如一个HTML网页的代码，要把其中的英文部分全替换成空格，怎么实现？如果还要把标点符号也替换成空格呢？也就是说最后只保留被空格分开的一些汉字串，但是原本连写的汉字不能被分开，多个连在一起的英文字符——比如一个单词——可以只被替换成一个空格。

...全文

88 9 打赏收藏转发到动态举报

写回复

用AI写文章

9 条回复

切换为时间正序

请发表友善的回复…

发表回复

gcd0318 2004-09-09

打赏
举报

目前偶采用的是每次读一个字节的ASCII，然后和127比较来判断是不是字母，但是只对半角有效，全角的字母数字和各种符号都不能查出来。这些符号的编码有什么规律吗？

gcd0318 2004-09-07

打赏
举报

那么全角字符怎么办

zzwu 2004-09-07

打赏
举报

另外,扫描一遍,速度是很快的.复杂性只有O(n)嘛!

zzwu 2004-09-07

打赏
举报

另外,扫描一遍,速度是很快的.复杂性只有是O(n)嘛!

zzwu 2004-09-07

打赏
举报

除了全文遍历,难道还会可能有别的办法吗？

"扫帚不到,灰尘不会跑了",

同样,文件一个地方没有遍历到,那里的英文字母就不会去掉.

gcd0318 2004-09-07

打赏
举报

标点都去掉，包括全角标点。
除了全文遍历难道就没有别的办法？
这样要对每个字符进行判断和比较编码值
而且全角标点的处理确实麻烦，偶甚至想构造一个字母表然后去比较

zzwu 2004-09-07

打赏
举报

这里没有讲明,"中文标点符号"应看成中文呢,还是看成标点?

如要看做中文,则需要保留,比较方便;

如要看做标点,则需要去掉,就比较麻烦,需要了解每一个中文标点的具体代码.

zzwu 2004-09-07

打赏
举报

可以根据英文和标点的代码和汉字代码的差别,从头到尾搜索整个文本,一一确定哪些字符要保留,哪些要改为空格.

dukcho 2004-09-07

打赏
举报

支持采用扫描，根据算法中的查找理论，你如果要去处那些字母必须至少遍历一遍；
可以对文件进行处理，根据汉字的编码和ASCII不同（汉字双字节的第一位为1），这样就把所有ＡＳＣＩＩ修改为空格。标点同样可以根据编码值得不同来进行处理！

将数字转换成文本, 如32转换成thirty two

文本分类问题是企业在NLP领域中处理文本数据时经常会遇到的一个问题，很多时候，我们需要将文本信息进行分类，或提相关的接口以供外部进行文本上传，在针对于用户所上传的文档信息就需要进行文档内容的分类，那么...

文本与文本处理（一）_萧风的博客-CSDN博客三、文本的分类（1）按照是否具有排版格式∶简单文本和丰富格式文本。（2）按照文本内容的组织方式∶线性文本和超文本。（一）简单文本（1）简单文本（纯文本）: 由一连串表达正文内容的字符编码组成，几乎不包含任何格式信息和结焓信息，也叫纯文本，扩展名是 .txt。Windows"记事本"程序所编辑处理的文本就是简单文本。（2）在简单文本中不能插入图片、表格，不能建立超链接，它是线性结构的。手机短消息使用的就是简单文本。 ..

文本标注 (tagging) 是一个监督学习问题，可以认为标注问题是分类问题的一个推广，标注问题又是更复杂的结构预测 (structure prediction) 问题的简单形式，标注问题的输入是一个观测序列，输出是一个标记序列护着状态序列，标注问题的目标在于学习一个模型，使它能够对观测序列给出标记序列作为预测，注意的是可能的标记个数是有限的，但其组合所成的标记序列的个数是依序列长度呈指数级增长的

数据结构与算法

33,010

社区成员

35,327

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章