社区
C++ 语言
帖子详情
用C++判断字符串是否为中文
love603
2009-02-04 06:13:54
加精
需要用C++判断一个字符串是否为中文,环境为Linux,另外该字符串可以为英文和法文等。请教各位高手。
...全文
29276
227
打赏
收藏
用C++判断字符串是否为中文
需要用C++判断一个字符串是否为中文,环境为Linux,另外该字符串可以为英文和法文等。请教各位高手。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
227 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
mymtom
2012-10-27
打赏
举报
回复
中文的编码太多了,简体中文常用的就有GB2312/GB18030/GBK
小Ray
2012-10-26
打赏
举报
回复
中文是用Unicode码存储,一个汉字占两个字节,如果是汉字的话,两个字节的第7位是1.
以前遇到个这个东西,用bit位来判断的。
不知道有没有其他的简便方法。
ranxufeng
2012-09-24
打赏
举报
回复
厉害啊
xue_smile
2012-07-10
打赏
举报
回复
[Quote=引用 8 楼 的回复:]
用宽字符,根据UNICODE值来判断
[/Quote]
这个是对的
xiaolong1116
2012-07-10
打赏
举报
回复
bool IsChinese(wchar_t &a)
{
return (unsigned short)a>=0x4e00&&(unsigned short)a<=0x9fcf;
}
clever101
2012-07-04
打赏
举报
回复
来源:
http://topic.csdn.net/t/20040908/17/3353053.html
Unicode :宽字节字符集
1. 如何取得一个既包含单字节字符又包含双字节字符的字符串的字符个数?
可以调用Microsoft Visual C++的运行期库包含函数_mbslen来操作多字节(既包括单字节也包括双字节)字符串。
调用strlen函数,无法真正了解字符串中究竟有多少字符,它只能告诉你到达结尾的0之前有多少个字节。
2. 如何对DBCS(双字节字符集)字符串进行操作?
函数 描述
PTSTR CharNext ( LPCTSTR ); 返回字符串中下一个字符的地址
PTSTR CharPrev ( LPCTSTR, LPCTSTR ); 返回字符串中上一个字符的地址
BOOL IsDBCSLeadByte( BYTE ); 如果该字节是DBCS字符的第一个字节,则返回非0值
3. 为什么要使用Unicode?
(1) 可以很容易地在不同语言之间进行数据交换。
(2) 使你能够分配支持所有语言的单个二进制.exe文件或DLL文件。
(3) 提高应用程序的运行效率。
Windows 2000是使用Unicode从头进行开发的,如果调用任何一个Windows函数并给它传递一个ANSI字符串,那么系统首先要将字符串转换成Unicode,然后将Unicode字符串传递给操作系统。如果希望函数返回ANSI字符串,系统就会首先将Unicode字符串转换成ANSI字符串,然后将结果返回给你的应用程序。进行这些字符串的转换需要占用系统的时间和内存。通过从头开始用Unicode来开发应用程序,就能够使你的应用程序更加有效地运行。
Windows CE 本身就是使用Unicode的一种操作系统,完全不支持ANSI Windows函数
Windows 98 只支持ANSI,只能为ANSI开发应用程序。
Microsoft公司将COM从16位Windows转换成Win32时,公司决定需要字符串的所有COM接口方法都只能接受Unicode字符串。
4. 如何编写Unicode源代码?
Microsoft公司为Unicode设计了WindowsAPI,这样,可以尽量减少代码的影响。实际上,可以编写单个源代码文件,以便使用或者不使用Unicode来对它进行编译。只需要定义两个宏(UNICODE和_UNICODE),就可以修改然后重新编译该源文件。
_UNICODE宏用于C运行期头文件,而UNICODE宏则用于Windows头文件。当编译源代码模块时,通常必须同时定义这两个宏。
5. Windows定义的Unicode数据类型有哪些?
数据类型 说明
WCHAR Unicode字符
PWSTR 指向Unicode字符串的指针
PCWSTR 指向一个恒定的Unicode字符串的指针
对应的ANSI数据类型为CHAR,LPSTR和LPCSTR。
ANSI/Unicode通用数据类型为TCHAR,PTSTR,LPCTSTR。
6. 如何对Unicode进行操作?
字符集 特性 实例
ANSI 操作函数以str开头 strcpy
Unicode 操作函数以wcs开头 wcscpy
MBCS 操作函数以_mbs开头 _mbscpy
ANSI/Unicode 操作函数以_tcs开头 _tcscpy(C运行期库)
ANSI/Unicode 操作函数以lstr开头 lstrcpy(Windows函数)
所有新的和未过时的函数在Windows2000中都同时拥有ANSI和Unicode两个版本。ANSI版本函数结尾以A表示;Unicode版本函数结尾以W表示。Windows会如下定义:
#ifdef UNICODE
#define CreateWindowEx CreateWindowExW
#else
#define CreateWindowEx CreateWindowExA
#endif // !UNICODE
7. 如何表示Unicode字符串常量?
字符集 实例
ANSI “string”
Unicode L“string”
ANSI/Unicode T(“string”)或_TEXT(“string”)if( szError[0] == _TEXT(‘J’) ){ }
8. 为什么应当尽量使用操作系统函数?
这将有助于稍稍提高应用程序的运行性能,因为操作系统字符串函数常常被大型应用程序比如操作系统的外壳进程Explorer.exe所使用。由于这些函数使用得很多,因此,在应用程序运行时,它们可能已经被装入RAM。
如:StrCat,StrChr,StrCmp和StrCpy等。
9. 如何编写符合ANSI和Unicode的应用程序?
(1) 将文本串视为字符数组,而不是chars数组或字节数组。
(2) 将通用数据类型(如TCHAR和PTSTR)用于文本字符和字符串。
(3) 将显式数据类型(如BYTE和PBYTE)用于字节、字节指针和数据缓存。
(4) 将TEXT宏用于原义字符和字符串。
(5) 执行全局性替换(例如用PTSTR替换PSTR)。
(6) 修改字符串运算问题。例如函数通常希望在字符中传递一个缓存的大小,而不是字节。这意味着不应该传递sizeof(szBuffer),而应该传递(sizeof(szBuffer)/sizeof(TCHAR)。另外,如果需要为字符串分配一个内存块,并且拥有该字符串中的字符数目,那么请记住要按字节来分配内存。这就是说,应该调用malloc(nCharacters *sizeof(TCHAR)),而不是调用malloc(nCharacters)。
10. 如何对字符串进行有选择的比较?
通过调用CompareString来实现。
标志 含义
NORM_IGNORECASE 忽略字母的大小写
NORM_IGNOREKANATYPE 不区分平假名与片假名字符
NORM_IGNORENONSPACE 忽略无间隔字符
NORM_IGNORESYMBOLS 忽略符号
NORM_IGNOREWIDTH 不区分单字节字符与作为双字节字符的同一个字符
SORT_STRINGSORT 将标点符号作为普通符号来处理
11. 如何判断一个文本文件是ANSI还是Unicode?
判断如果文本文件的开头两个字节是0xFF和0xFE,那么就是Unicode,否则是ANSI。
12. 如何判断一段字符串是ANSI还是Unicode?
用IsTextUnicode进行判断。IsTextUnicode使用一系列统计方法和定性方法,以便猜测缓存的内容。由于这不是一种确切的科学方法,因此 IsTextUnicode有可能返回不正确的结果。
13. 如何在Unicode与ANSI之间转换字符串?
Windows函数MultiByteToWideChar用于将多字节字符串转换成宽字符串;函数WideCharToMultiByte将宽字符串转换成等价的多字节字符串。
gabriel1017
2012-06-11
打赏
举报
回复
[Quote=引用 11 楼 的回复:]
引用 8 楼 racket2008 的回复:
用宽字符,根据UNICODE值来判断
.
[/Quote]
看来看去还是这个最靠谱
不过楼主可要确定要判断的字符的本身的字符编码
否则很容易单字符被识别成宽字符
从而影响结果.
oxwuag
2011-12-23
打赏
举报
回复
[Quote=引用 96 楼 zjsflyer 的回复:]
我查了一下,找到了这个猜字符编码的算法代码,叫chartdet 它是mozilla firefox使用的自动字符集探测算法
这个算法的最初作者是frank Tang,C++源代码在http://lxr.mozilla.org/mozilla/source/intl/chardet/,可以从http://www.mozilla.org/projects/intl/chardet.html得到……
[/Quote]
mark
DarthVader
2011-12-22
打赏
举报
回复
楼上某位说得很对
先判断编码 转换成较易处理的中间编码 再根据范围确定字符语种
既然是Linux环境 有icu库可以满足楼主的需求
c87527124
2011-12-06
打赏
举报
回复
mark 要是以后有用呢?
冰筑过客
2011-11-18
打赏
举报
回复
围观
Phoenix826
2011-11-12
打赏
举报
回复
判断字符串地址是否大于128
irwin_chen
2011-10-23
打赏
举报
回复
[Quote=引用 205 楼 sparkcoollee 的回复:]
看来到了结贴的时候了。先看一下你的文件的编码格式,在linux下一般是UTF-8,当然也可能是GBK。
如果是GBK:
string str = "你的字符串";
int i = 0;
while(str[i])
{
if(((unsinged char)str[i])>128)
{
cout<<"中文字符"<<endl;
i += 2;
}
else
{
cout<<……
[/Quote]
楼主说的是一个字符串,没说在文件里,而且即使从文件里取。
你能根据文件编码格式判断中文编码格式么~~
UTF8的文件就不能存GBK了?? 按文件格式UTF8解码显示乱码而已,其实是汉字。
irwin_chen
2011-10-23
打赏
举报
回复
汉字编码那么多,难道一个一个去比看是哪种编码~~~~ ~
ty502
2011-10-22
打赏
举报
回复
不懂,虚心学习了
追求执着
2011-10-18
打赏
举报
回复
Mark!!
sparkcoollee
2011-10-17
打赏
举报
回复
看来到了结贴的时候了。先看一下你的文件的编码格式,在linux下一般是UTF-8,当然也可能是GBK。
如果是GBK:
string str = "你的字符串";
int i = 0;
while(str[i])
{
if(((unsinged char)str[i])>128)
{
cout<<"中文字符"<<endl;
i += 2;
}
else
{
cout<<"英文字符"<<endl;
i++;
}
}
UTF-8;
没有现成代码,如需要,我有时间再回复一下吧
like0107
2011-10-17
打赏
举报
回复
学习了 谢谢
whathu
2011-10-15
打赏
举报
回复
mark
liveformyself
2011-10-13
打赏
举报
回复
路过,顶楼主
加载更多回复(190)
字符串
中
是否
包含
中文
使用正则表达式
判断
字符串
中
是否
包含
中文
汉字或者
中文
符号
中英文
字符串
分割算法
C++
C程序示例
<> 一些背景知识: 1. 一个汉字在c\
c++
的存储, 使用2个字节(char)存储; 2. 汉字存储的第一个char, 其值一定大于'~'(0111 1110=126),否则将导致识别歧义; 此处, 使用"单ASCII字符"来表示非 单ASCII字符的
判断
, 可以根据以下规则(主要R3, R4); : 一个
字符串
的长度==1,那肯定是一个ASCII字符; : 一个
字符串
的长度==2,且第1个ASCII字符的编码小于'~'; 那肯定是2个单ASCII字符; -- (PS: "") : 一个
字符串
的长度==3,且中间的ASCII字符的编码小于'~'; 那第3个肯定是单ASCII字符; (前2个
是否
构成1个汉字不能确定) : (基于R3)如果第pos个位置的ASCII字符编码小于'~', 那从下标pos,pos+1处拆分
字符串
(下标pos归前串),将不会导致乱码; A 或者 B 的选择,需要知道以下信息: (1). 从 cut_base_pos 开始到 pos_B 结束的这段
字符串
内, 最后一个单ASCII字符的结束下标 p 在此基础上, 若使用: y -- 表示单ASCII字符(已确定的); x -- 表示可能是 单ASCII字符,也可能是 汉字的半个ASCII存储码; 那么一段长度为N的
字符串
,按照存储的ASCII码可以表示为一串如下的
字符串
(不包含[]) "x .. x][x .. x y x .. x][x .. x", 其中 s,e表示当前正在分析的一段子串(0<=s
青少年
C++
编程NOIP/CSP竞赛通关语法-
字符串
1、本课程为零基础
C++
语法专题课,是青少儿参加信息学奥赛NOIP/CSP需要学习的语法专题课;2、本课程每节课均配有练习题以及真题,以锻炼孩子的解题能力;3、本课程是基于小学生的认知发展水平开发的,运用孩子生活中常见的例子来阐述编程知识,让孩子听得懂学得会;4、学完本课程后,孩子可以自主编程,解决竞赛中,生活实际问题,5、拓展孩子计算思维,应对人工智能时代的挑战。6、本课程介绍的是
字符串
。也是历来竞赛重要考点。
C++
实现
判断
一个
字符串
是否
为UTF8或GBK格式的方法
主要介绍了
C++
实现
判断
一个
字符串
是否
为UTF8或GBK格式的方法,涉及
C++
针对字符编码的遍历、
判断
、编码转换等相关操作技巧,需要的朋友可以参考下
通过对字符的unicode编码进行
判断
来确定字符
是否
为
中文
通过对字符的unicode编码进行
判断
来确定字符
是否
为
中文
,要进行
判断
的
字符串
,要进行
判断
的第几个字符
C++ 语言
64,681
社区成员
250,490
社区内容
发帖
与我相关
我的任务
C++ 语言
C++ 语言相关问题讨论,技术干货分享,前沿动态等
复制链接
扫一扫
分享
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
请不要发布与C++技术无关的贴子
请不要发布与技术无关的招聘、广告的帖子
请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下
试试用AI创作助手写篇文章吧
+ 用AI写文章