一个c++处理中文标点的问题

newgoodboy 2003-03-17 01:38:52

我要在一个中英文混杂的语句中标记出所有的标点符号，用的是string::find(sign)函数,但是碰到了如下问题：
输入：　　董建华昨天下午在政府总部与传媒见面时，谈及港府的新财政预算案和公务员体制改革，也第一次就梁锦松买新车风波发表谈话。
输出：　
　 at 0
　 at 2
， at 40
， at 80
。 at 116
《 at 3
这里在董建华之前是有两个空格，但是程序把第二个空格的第二个字节和“董
”的第一个字节看作了《，这个显然是不对的，我应该如何得到正确的结果。
我的环境：redhat 7.3
kdevelop 2.1

...全文

142 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

短歌如风 2003-08-22

打赏
举报

回复

使用Unicode表示，用wstring。

steel_de_lee 2003-03-17

打赏
举报

回复

用状态机来判断，不要用find

主要介绍了C++ 处理中文符号实例详解的相关资料,需要的朋友可以参考下

代码说明 ---------------------------------------------------- 这是一个Win32的窗口应用程序工程。用于调试与游戏环境类似的非图象部分的代码。目前包含内容：Ime_MetalCore 工程版本：Visual C++ 2008 速成版编译无需DirectX SDK 操作 ----------------------------------------------------- F1: 切换到下一种输入法，必须EnableIme(F5)后才有效 F2: 切换全角/半角 F3: 切换中/英文标点 F5: 允许输入法，此后玩家可以用Ctrl+Space热键呼出ime F6: 关闭并禁止输入法，此后玩家不能用热键呼出ime Ime_MetalCore ----------------------------------------------------- 实现windows输入法的代码控制，用于全屏游戏中的汉字输入。目前只测试了极点五笔，其它的输入是否可用暂未测试。作者说 ----------------------------------------------------- 我是JOHNNY孙，这个程序写于07年3月份，很早就想发上来了，一直没有空，今天终于抽空整理了一下发上来，希望对大家有用。该程序参考了www.gameres.com中的一个输入法例程，在此对原作者表示感谢。

问题描述设计C++类，使其能够统计文本文件中字符个数，在终端中显示结果，并将结果保存到指定的文件中。需要统计的字符有：a、英文字母总数b、英文单词总数从c、中文字符总数（包括标点符号）d、行总数e、其他字符总数（包括英文标点、空白符等）。问题分析从问题描述中可以看到，我们所要做的就是将一篇文章（txt格式，字符格式为ANSI）中出现的中英文字符出现的次数进行统计。而一篇文本文件中出现的字符种类和顺序没有规律，如何对当前读取的字符的种类进行判断并转入到相应的统计状态成为了问题的关键。但是，我们知道对于英文字母其ASCII码范围在65～90和97～122两个区间，而英文单词的判断就是在相邻两个非英文字母之间夹着一串英文字母，所以我们可以在读取了第一个非英文字母后判断下一个读取的是否为英文字母，如果是便转入英文字符的处理状态，其中可同时对字母个数进行统计，在读到非英文字符时退出该状态，并将英文单词数加1，然后转入“状态转换中心”进行状态转换的判断。同理，对于中文字符的处理，也同上所述。但是由于中文字符占两个字节，而且各个编码格式中中文字符的编码范围不一致，所以处理起来比较麻烦，但是原理是一致的。在本例中仅对ANSI格式的编码进行处理，所以中文字符每个字节的范围为0x80～0xff，不过在实际操作中发现有些中文字符还是被漏掉了，应该是中文字符的编码范围并没有全部包括进去的原因。

内容索引:VC/C++源码,字符处理,字符统计　　这个小程序很实用的个人觉得，可以统计一段中英文混合字符串中所有中文的字符个数，它能识别英文、标点以及特殊字符，仅挑选出中文字符来统计，程序主要是根据编码进行统计，这在以后的程序开发中经常要用到。

辅助写作工具本项目为一个基于c#和c++开发的中文写作辅助工具。可在写作时实现千万级字次的实时检索匹配，推荐后文内容。让写作像写代码一样可以“自动补全”。【2021年注：这个是几年前写着玩的项目，现在已经不维护了。】灵感来源之前做了查重系统（参见项目：），获得了一些论文数据。写材料时我想，能不能基于论文库构建一个辅助写作工具，于是这个项目诞生了。可以根据上文输入自动推荐后文内容，像写代码一样自动补全你的文章。项目演示demo见后方的视频链接。操作说明使用回车键键入候选，使用上下键选择候选。当你想输入一个回车时，需要先输入一个句号。使用/编译/自定义数据说明 1、首先需要拥有一些特定领域的简体中文语料数据。如果这些数据分布在很多文件当中，则需要将它们追加到一个文本文件中。 2、跑TxtPreprocessing.py这个脚本对步骤一中的数据进行处理，将其中除了汉字和个别标点符

69,373

社区成员

243,080

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章