社区
C++ 语言
帖子详情
字符串编码的转换问题???
llf_hust
2005-08-12 07:50:50
我在VC++里面写了个程序,在程序里面调用了两个系统函数
MultiByteWideChar(CP_UTF8,0,...);
WideCharToMultiByte(CP_UTF8,0,...);
现在我要把该程序移值到LINUX操作系统下面,但不知道该如何实现。 哪位高手帮帮我呀
...全文
519
9
打赏
收藏
字符串编码的转换问题???
我在VC++里面写了个程序,在程序里面调用了两个系统函数 MultiByteWideChar(CP_UTF8,0,...); WideCharToMultiByte(CP_UTF8,0,...); 现在我要把该程序移值到LINUX操作系统下面,但不知道该如何实现。 哪位高手帮帮我呀
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
9 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
chengshiq
2005-08-14
打赏
举报
回复
在LINUX上进行编码转换时,既可以利用iconv函数族编程实现,也可以利用iconv命令来实现,只不过后者是针对文件的,即将指定文件从一种编码转换为另一种编码。
一、利用iconv函数族进行编码转换
iconv函数族的头文件是iconv.h,使用前需包含之。
#include <iconv.h>
iconv函数族有三个函数,原型如下:
(1) iconv_t iconv_open(const char *tocode, const char *fromcode);
此函数说明将要进行哪两种编码的转换,tocode是目标编码,fromcode是原编码,该函数返回一个转换句柄,供以下两个函数使用。
(2) size_t iconv(iconv_t cd,char **inbuf,size_t *inbytesleft,char **outbuf,size_t *outbytesleft);
此函数从inbuf中读取字符,转换后输出到outbuf中,inbytesleft用以记录还未转换的字符数,outbytesleft用以记录输出缓冲的剩余空间。 (3) int iconv_close(iconv_t cd);
此函数用于关闭转换句柄,释放资源。
例子1: 用C语言实现的转换示例程序
/* f.c : 代码转换示例C程序 */
#include <iconv.h>
#define OUTLEN 255
main()
{
char *in_utf8 = "姝e?ㄥ??瑁?";
char *in_gb2312 = "正在安装";
char out[OUTLEN];
//unicode码转为gb2312码
rc = u2g(in_utf8,strlen(in_utf8),out,OUTLEN);
printf("unicode-->gb2312 out=%sn",out);
//gb2312码转为unicode码
rc = g2u(in_gb2312,strlen(in_gb2312),out,OUTLEN);
printf("gb2312-->unicode out=%sn",out);
}
//代码转换:从一种编码转为另一种编码
int code_convert(char *from_charset,char *to_charset,char *inbuf,int inlen,char *outbuf,int outlen)
{
iconv_t cd;
int rc;
char **pin = &inbuf;
char **pout = &outbuf;
cd = iconv_open(to_charset,from_charset);
if (cd==0) return -1;
memset(outbuf,0,outlen);
if (iconv(cd,pin,&inlen,pout,&outlen)==-1) return -1;
iconv_close(cd);
return 0;
}
//UNICODE码转为GB2312码
int u2g(char *inbuf,int inlen,char *outbuf,int outlen)
{
return code_convert("utf-8","gb2312",inbuf,inlen,outbuf,outlen);
}
//GB2312码转为UNICODE码
int g2u(char *inbuf,size_t inlen,char *outbuf,size_t outlen)
{
return code_convert("gb2312","utf-8",inbuf,inlen,outbuf,outlen);
}
例子2: 用C++语言实现的转换示例程序
/* f.cpp : 代码转换示例C++程序 */
#include <iconv.h>
#include <iostream>
#define OUTLEN 255
using namespace std;
// 代码转换操作类
class CodeConverter {
private:
iconv_t cd;
public:
// 构造
CodeConverter(const char *from_charset,const char *to_charset) {
cd = iconv_open(to_charset,from_charset);
}
// 析构
~CodeConverter() {
iconv_close(cd);
}
// 转换输出
int convert(char *inbuf,int inlen,char *outbuf,int outlen) {
char **pin = &inbuf;
char **pout = &outbuf;
memset(outbuf,0,outlen);
return iconv(cd,pin,(size_t *)&inlen,pout,(size_t *)&outlen);
}
};
int main(int argc, char **argv)
{
char *in_utf8 = "姝e?ㄥ??瑁?";
char *in_gb2312 = "正在安装";
char out[OUTLEN];
// utf-8-->gb2312
CodeConverter cc = CodeConverter("utf-8","gb2312");
cc.convert(in_utf8,strlen(in_utf8),out,OUTLEN);
cout << "utf-8-->gb2312 in=" << in_utf8 << ",out=" << out << endl;
// gb2312-->utf-8
CodeConverter cc2 = CodeConverter("gb2312","utf-8");
cc2.convert(in_gb2312,strlen(in_gb2312),out,OUTLEN);
cout << "gb2312-->utf-8 in=" << in_gb2312 << ",out=" << out << endl;
}
二、利用iconv命令进行编码转换
iconv命令用于转换指定文件的编码,默认输出到标准输出设备,亦可指定输出文件。
用法: iconv [选项...] [文件...]
有如下选项可用:
输入/输出格式规范:
-f, --from-code=名称 原始文本编码
-t, --to-code=名称 输出编码
信息:
-l, --list 列举所有已知的字符集
输出控制:
-c 从输出中忽略无效的字符
-o, --output=FILE 输出文件
-s, --silent 关闭警告
--verbose 打印进度信息
-?, --help 给出该系统求助列表
--usage 给出简要的用法信息
-V, --version 打印程序版本号
例子:
iconv -f utf-8 -t gb2312 aaa.txt >bbb.txt
这个命令读取aaa.txt文件,从utf-8编码转换为gb2312编码,其输出定向到bbb.txt文件。
snowbirdfly
2005-08-14
打赏
举报
回复
向一楼大哥学习啊~~~
llf_hust
2005-08-14
打赏
举报
回复
大家具体的说一下实现方法呀
doway
2005-08-14
打赏
举报
回复
mark
mituzhishi
2005-08-13
打赏
举报
回复
用GNU写,别用VC。
llf_hust
2005-08-13
打赏
举报
回复
up
llf_hust
2005-08-12
打赏
举报
回复
UP
大家帮帮忙呀
xiaocai0001
2005-08-12
打赏
举报
回复
楼上好强啊!!
Jagen在路上
2005-08-12
打赏
举报
回复
在具备完整的 I18N 环境支持的 UNIX 系统中 (包括 GNU/Linux 系统),其编码系统的转换有两种方式:
1.一般转换接口: 此即为 libc 中的 iconv() 编码转换接口,它可以做到各种编码的转换。然而,在一般的 UNIX 系统中,并不见得系统同时支持编码系统 A 与编码系统 B, 就一定能做到 A 与 B 之间的互转,即使 A 与 B 内含相同的 (子) 字集。但在 GNU/Linux 底下,只要 A 与 B 内含相同的 (子) 字集,则可以直接透过 iconv() 做转换。例如将 BIG5 转成 BIG5HKSCS 或反过来,或者 GB2312 与 GBK 与 GB18030 之间的互转。当然,各字集与 UCS4 之间的互转都不是问题,原因就是 glibc 是以 UCS4 做为转码系统的「基底字集」。
所谓的「基底字集」意指各地区的语文符号在系统内部的表式方式,而且它还是各地区所有语文符号的集合。根据此定义,表示我们可以将世界各地所有的编码方式转换成「基底字集」来统一处理 (理论上)。而 glibc 所采用的「基底字集」的编码方式就是 UCS4, 它是定长编码系统,采用 32 位的字节来编码,它是目前已定义最大的一个字集的编码方式,而且它仍持续扩编世界各地的文字与符号。
在 GNU/Linux 下如果要透过 iconv() 进行转码工作时,它实际上是先将该编码转成基底字集,然后再转成目的编码,如此便二确保只要编码中有共同的 (子) 字集时,转换可以顺利进行。
便对于没有共同子字集的情况呢?例如 BIG5 与 GB2312 之间的互转,在 GNU/Linux 下也提供额外的 iconv() 模块来进行,而这些都统一在 iconv() 接口之下,故在实际使用上不会感到任何差别。然而这类的额外模块目前并未包含所有可能的转换情况,但仍持续在建构中。例如 BIG5 与 GB2312 的互转模块已于日前完成,目前尚在实验版的 glibc-2.3 测试中,预计不久的未来等 glibc-2.3 正式发表,并且大部分的 GNU/Linux 系统都换装 glibc-2.3 之后,中文繁简转换的部分将不是问题。
2.区域数据库编码转换接口: 此转换接口是与系统区域化数据库 (locale) 相关的,也是绝大部分的 I18N 程序会使用的接口。由于不同的区域化数据库所采用的编码系统是固定的,例如我们台湾地区的区域化数据库名称为 zh_TW (或 zh_TW.Big5), 其采用的编码系统即为 BIG5。而区域化数据库主要的任务只有在让同一份程序代码可以处理各地区的语言,因而可以适用于各地区,而不需要额外修改程序本身,故它的任何不在于处理多国语文的问题。因此,这个转码接口只负责该数据库所采用的编码,与系统基底字集所采用的编码系统互转而已。它不包含如上述 iconv() 转码接口那样,可以做到任意编码系统间的互转。
此转码接口最大的用途在于方便程序做文字处理。因为地区原本的编码系统多半是采用「多字节」编码方式,例如 BIG5 就是将两个 8 位的字节组合起来使用,故称「多字节编码」。但当我们要在字符串中区分中文字与英文字母时就会遇到麻烦,因为前者是以两个字节来代表,后者确是以单一一个字节来代表,故我们要在程序中额外写入 BIG5 码的编码规则才行,而这样的程序就不能适用与其它的编码方式了。因此,当我们用此转换接口 将它转成定长编码方式时,由于每个字 (不论中英文) 都是故定的长度 (即字节数),我们称之为「宽字符 (wide character)」,这使得我们可以很方便做字符串处理。同时,我们的程序中也不必加入 BIG5 的编码规则,因为这些都在此转码接口中处理掉了,因此,这样写出来的程序就是一个支持 I18N 的程序,可以在不需要修改程序代码本身的情况下适用于各语系与编码系统。
然而,我们在前面也提过,定长编码方式 (即宽字符) 只能用于运作中的程序内部,如果在做数据输出入时可能因 CPU 的位序不同与各硬件系统的限制而出错。因此,当我们要做数据交换时,最好的方式是将它转回多字节编码,才能确保不会有问题。这在第 2 点的转换接口是不成问题的,因为基底字集与其多字节编码之间的对应是定义在区域化数据库中的;但在第 1 点的转换接口中,特别是 Unicode 或 UCS4,而且包含了如中日韩等多国语文数据的情况又如何呢?对于 Unicode 而言,其所对应的多字节编码为 UTF-8, 它可以将所有 Unicode 码转换成不定长度的字节,视其 Unicode 码值而定,而且转出来的多字节与 ASCII 编码兼容,故可以适用于所有的 UNIX 应用程序。至于 UCS4 所对应的多位原组编码则为 UTF-16, 它是将两个 UTF-8 字符组合而成的。
Python 47个
字符串
方法
如果是,来学学本课程吧,本课程以讲解官网文档的方式,讲解 Python 47个
字符串
方法,涉及替换、删除、连接、查找、分割、格式化、
编码
、
转换
等
字符串
操作,带同学们系统学习 Python
字符串
方法。 &...
java将
字符串
重新
编码
_java中
字符串
编码
转换
Java 正确的做
字符串
编码
转换
字符串
的内部表示?
字符串
在java中统一用unicode表示( 即utf-16 LE) ,对于String s = "你好哦!";如果源码文件是GBK
编码
, 操作系统(windows)默认的环境
编码
为GBK,那么编译时, JVM将按照GBK
编码
将字节数组解析成字符,然后将字符
转换
为unicode格式的字节数组,作为内部存储。当打印这个
字符串
时,JVM 根据操作...
java
字符串
应用之
字符串
编码
转换
随时随地阅读更多技术实战干货,获取项目源码、学习资料,请关注源代码社区公众号(ydmsq666) 无论是对程序的本地化还是国际化,都会涉及到字符
编码
的
转换
的
问题
。尤其在web应用中常常需要处理中文字符,这时就需要进行
字符串
的
编码
转换
,将
字符串
编码
转换
为GBK或者GB2312。 一、关键技术点: 1、当前流行的...
python 中文
字符串
编码
转换
_Python合集之Python
字符串
编码
转换
最早的
字符串
编码
是美国标准信息交换码,即ASCII码,他仅对10个数字,26个大写英文字母、26个小写英文字母及一些其他符号进行了
编码
。ASCII码最多只能表示256个符号,每个符号占一个字节。随着信息技术的发展,各国文字都需要进行
编码
,于是出现了GBK、GB2312、UTF-8
编码
等。其中GBk和GB2312是我国制定的中文
编码
标准,使用一个字节表示英文字母,2个字节表示中文字符。而UTF-8是...
java
转换
字符串
编码
格式_java
转换
字符串
编码
格式的方法
java
转换
字符串
编码
格式 (解码错误,重新解码)字符集概念:规定了某个文字对应的二进制数字存放方式(
编码
)和某串二进制数值代表了哪个文字(解码)的
转换
关系。我们在计算机屏幕上看到的是实体化的文字,而在计算机存储介质中存放的实际是二进制的比特流。乱码场景(纯属瞎掰):1) 前台输入utf-8
编码
的一串汉字(string1)。 (页面
编码
为utf-8, 在内存中会将这串汉字以utf-8
编码
为对应的二...
C++ 语言
64,654
社区成员
250,484
社区内容
发帖
与我相关
我的任务
C++ 语言
C++ 语言相关问题讨论,技术干货分享,前沿动态等
复制链接
扫一扫
分享
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
请不要发布与C++技术无关的贴子
请不要发布与技术无关的招聘、广告的帖子
请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下
试试用AI创作助手写篇文章吧
+ 用AI写文章