汉字文件输入输出

zwl327 2003-10-19 01:31:43
C++里,用什么算法能实现从文件中输入汉字.
...全文
78 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
孤必有邻 2003-10-19
  • 打赏
  • 举报
回复
不是我没看懂,就是你没说清,
总之,不知道要实现什么
0sch 2003-10-19
  • 打赏
  • 举报
回复
如果你要输入的仅仅是用来显示的汉字,可以用CString 定义一个字符串,直接读入就可以了。


如果你是以汉字为KEY WORD,只有全文搜索,逐字节比较

如果是指ASCII半角字符和GB2312/GBK汉字混在一起,没有简单快速的方法实现汉字查找,这里的简单快速是指与纯ASCII英文文本相比较而言。


GB2312/GBK用的是高位区码(GBK用扩展的区码)+高位位码拼成一个全角字(双字节),由于区码和位码都在128以上,并且没有可靠的算法分辩两个字节(原因下面我会解释),需要准确搜索时,不能随便从中间定位,因为如果错开了一个字节,就会造成乱码,这样诸如二分法之类的算法都不灵了。
当然,如果你是用等宽的编码,比如UNICODE,或GB2312/GBK全汉字字符(英文和标点用全角汉字),就没有上面的问题,WINDOWS内部就用双字节的UNICODE,代价是资源消耗很大,而后一种所有字符都采用全角的情况很少见。

注:GBK是GB2312的扩展,而GB2312最大的问题之一,是区码的码位和位码规则完全一样,原始的GB2312区位,区是从1到94,位也是1到94,护展到机内码是区号+160,位号加160,各占一个字节,因此从理论上来说,在字符串内以字节为单位随机取一个字节开始,没有可靠的算法可以分辩出这个字节是区码还是位码,而它后面的字串也跟着不能确定,于是精确的搜索字串只能老老实实从第一个字节开始扫描,见到第一个128以上的字节就当成汉字的区位,从它开始定位两个一组解析,直到发现第一个ASCII码为止,于是以字节为单位转入ASCII的分析,直到发现一个大于128的字符......这种循环效率低下是肯定的。
zwl327 2003-10-19
  • 打赏
  • 举报
回复
具体点能用什么算法实现.
请用C++写一下算法.
huanyun 2003-10-19
  • 打赏
  • 举报
回复
什么意思?不太明白
从文件中读取 自己加上判断 大于128可能为汉字的前字节

16,472

社区成员

发帖
与我相关
我的任务
社区描述
VC/MFC相关问题讨论
社区管理员
  • 基础类社区
  • Web++
  • encoderlee
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

        VC/MFC社区版块或许是CSDN最“古老”的版块了,记忆之中,与CSDN的年龄几乎差不多。随着时间的推移,MFC技术渐渐的偏离了开发主流,若干年之后的今天,当我们面对着微软的这个经典之笔,内心充满着敬意,那些曾经的记忆,可以说代表着二十年前曾经的辉煌……
        向经典致敬,或许是老一代程序员内心里面难以释怀的感受。互联网大行其道的今天,我们期待着MFC技术能够恢复其曾经的辉煌,或许这个期待会永远成为一种“梦想”,或许一切皆有可能……
        我们希望这个版块可以很好的适配Web时代,期待更好的互联网技术能够使得MFC技术框架得以重现活力,……

试试用AI创作助手写篇文章吧