字符串编码的转换问题？？？

llf_hust 2005-08-12 07:50:50

我在VC++里面写了个程序，在程序里面调用了两个系统函数
MultiByteWideChar(CP_UTF8,0,...);
WideCharToMultiByte(CP_UTF8,0,...);
现在我要把该程序移值到LINUX操作系统下面，但不知道该如何实现。哪位高手帮帮我呀

...全文

559 9 打赏收藏转发到动态举报

写回复

用AI写文章

9 条回复

切换为时间正序

请发表友善的回复…

发表回复

chengshiq 2005-08-14

打赏
举报

在LINUX上进行编码转换时,既可以利用iconv函数族编程实现,也可以利用iconv命令来实现,只不过后者是针对文件的,即将指定文件从一种编码转换为另一种编码。
一、利用iconv函数族进行编码转换
iconv函数族的头文件是iconv.h,使用前需包含之。
#include <iconv.h>
iconv函数族有三个函数,原型如下:

(1) iconv_t iconv_open(const char *tocode, const char *fromcode);
此函数说明将要进行哪两种编码的转换,tocode是目标编码,fromcode是原编码,该函数返回一个转换句柄,供以下两个函数使用。
(2) size_t iconv(iconv_t cd,char **inbuf,size_t *inbytesleft,char **outbuf,size_t *outbytesleft);
此函数从inbuf中读取字符,转换后输出到outbuf中,inbytesleft用以记录还未转换的字符数,outbytesleft用以记录输出缓冲的剩余空间。 (3) int iconv_close(iconv_t cd);
此函数用于关闭转换句柄,释放资源。
例子1: 用C语言实现的转换示例程序

/* f.c : 代码转换示例C程序 */
#include <iconv.h>
#define OUTLEN 255
main()
{
char *in_utf8 = "姝ｅ?ㄥ??瑁?";
char *in_gb2312 = "正在安装";
char out[OUTLEN];

//unicode码转为gb2312码
rc = u2g(in_utf8,strlen(in_utf8),out,OUTLEN);
printf("unicode-->gb2312 out=%sn",out);
//gb2312码转为unicode码
rc = g2u(in_gb2312,strlen(in_gb2312),out,OUTLEN);
printf("gb2312-->unicode out=%sn",out);
}
//代码转换:从一种编码转为另一种编码
int code_convert(char *from_charset,char *to_charset,char *inbuf,int inlen,char *outbuf,int outlen)
{
iconv_t cd;
int rc;
char **pin = &inbuf;
char **pout = &outbuf;

cd = iconv_open(to_charset,from_charset);
if (cd==0) return -1;
memset(outbuf,0,outlen);
if (iconv(cd,pin,&inlen,pout,&outlen)==-1) return -1;
iconv_close(cd);
return 0;
}
//UNICODE码转为GB2312码
int u2g(char *inbuf,int inlen,char *outbuf,int outlen)
{
return code_convert("utf-8","gb2312",inbuf,inlen,outbuf,outlen);
}
//GB2312码转为UNICODE码
int g2u(char *inbuf,size_t inlen,char *outbuf,size_t outlen)
{
return code_convert("gb2312","utf-8",inbuf,inlen,outbuf,outlen);
}

例子2: 用C++语言实现的转换示例程序

/* f.cpp : 代码转换示例C++程序 */
#include <iconv.h>
#include <iostream>

#define OUTLEN 255

using namespace std;

// 代码转换操作类
class CodeConverter {
private:
iconv_t cd;
public:
// 构造
CodeConverter(const char *from_charset,const char *to_charset) {
cd = iconv_open(to_charset,from_charset);
}

// 析构
~CodeConverter() {
iconv_close(cd);
}

// 转换输出
int convert(char *inbuf,int inlen,char *outbuf,int outlen) {
char **pin = &inbuf;
char **pout = &outbuf;

memset(outbuf,0,outlen);
return iconv(cd,pin,(size_t *)&inlen,pout,(size_t *)&outlen);
}
};

int main(int argc, char **argv)
{
char *in_utf8 = "姝ｅ?ㄥ??瑁?";
char *in_gb2312 = "正在安装";
char out[OUTLEN];

// utf-8-->gb2312
CodeConverter cc = CodeConverter("utf-8","gb2312");
cc.convert(in_utf8,strlen(in_utf8),out,OUTLEN);
cout << "utf-8-->gb2312 in=" << in_utf8 << ",out=" << out << endl;

// gb2312-->utf-8
CodeConverter cc2 = CodeConverter("gb2312","utf-8");
cc2.convert(in_gb2312,strlen(in_gb2312),out,OUTLEN);
cout << "gb2312-->utf-8 in=" << in_gb2312 << ",out=" << out << endl;
}

二、利用iconv命令进行编码转换

iconv命令用于转换指定文件的编码,默认输出到标准输出设备,亦可指定输出文件。

用法： iconv [选项...] [文件...]

有如下选项可用:

输入/输出格式规范：
-f, --from-code=名称原始文本编码
-t, --to-code=名称输出编码

信息：
-l, --list 列举所有已知的字符集

输出控制：
-c 从输出中忽略无效的字符
-o, --output=FILE 输出文件
-s, --silent 关闭警告
--verbose 打印进度信息

-?, --help 给出该系统求助列表
--usage 给出简要的用法信息
-V, --version 打印程序版本号

例子:
iconv -f utf-8 -t gb2312 aaa.txt >bbb.txt
这个命令读取aaa.txt文件，从utf-8编码转换为gb2312编码,其输出定向到bbb.txt文件。

snowbirdfly 2005-08-14

打赏
举报

向一楼大哥学习啊~~~

llf_hust 2005-08-14

打赏
举报

大家具体的说一下实现方法呀

doway 2005-08-14

打赏
举报

mark

mituzhishi 2005-08-13

打赏
举报

用GNU写，别用VC。

llf_hust 2005-08-13

打赏
举报

llf_hust 2005-08-12

打赏
举报

UP
大家帮帮忙呀

xiaocai0001 2005-08-12

打赏
举报

楼上好强啊！！

Jagen在路上 2005-08-12

打赏
举报

在具备完整的 I18N 环境支持的 UNIX 系统中 (包括 GNU/Linux 系统)，其编码系统的转换有两种方式:
1.一般转换接口: 此即为 libc 中的 iconv() 编码转换接口，它可以做到各种编码的转换。然而，在一般的 UNIX 系统中，并不见得系统同时支持编码系统 A 与编码系统 B, 就一定能做到 A 与 B 之间的互转，即使 A 与 B 内含相同的 (子) 字集。但在 GNU/Linux 底下，只要 A 与 B 内含相同的 (子) 字集，则可以直接透过 iconv() 做转换。例如将 BIG5 转成 BIG5HKSCS 或反过来，或者 GB2312 与 GBK 与 GB18030 之间的互转。当然，各字集与 UCS4 之间的互转都不是问题，原因就是 glibc 是以 UCS4 做为转码系统的「基底字集」。
所谓的「基底字集」意指各地区的语文符号在系统内部的表式方式，而且它还是各地区所有语文符号的集合。根据此定义，表示我们可以将世界各地所有的编码方式转换成「基底字集」来统一处理 (理论上)。而 glibc 所采用的「基底字集」的编码方式就是 UCS4, 它是定长编码系统，采用 32 位的字节来编码，它是目前已定义最大的一个字集的编码方式，而且它仍持续扩编世界各地的文字与符号。
在 GNU/Linux 下如果要透过 iconv() 进行转码工作时，它实际上是先将该编码转成基底字集，然后再转成目的编码，如此便二确保只要编码中有共同的 (子) 字集时，转换可以顺利进行。
便对于没有共同子字集的情况呢？例如 BIG5 与 GB2312 之间的互转，在 GNU/Linux 下也提供额外的 iconv() 模块来进行，而这些都统一在 iconv() 接口之下，故在实际使用上不会感到任何差别。然而这类的额外模块目前并未包含所有可能的转换情况，但仍持续在建构中。例如 BIG5 与 GB2312 的互转模块已于日前完成，目前尚在实验版的 glibc-2.3 测试中，预计不久的未来等 glibc-2.3 正式发表，并且大部分的 GNU/Linux 系统都换装 glibc-2.3 之后，中文繁简转换的部分将不是问题。
2.区域数据库编码转换接口: 此转换接口是与系统区域化数据库 (locale) 相关的，也是绝大部分的 I18N 程序会使用的接口。由于不同的区域化数据库所采用的编码系统是固定的，例如我们台湾地区的区域化数据库名称为 zh_TW (或 zh_TW.Big5), 其采用的编码系统即为 BIG5。而区域化数据库主要的任务只有在让同一份程序代码可以处理各地区的语言，因而可以适用于各地区，而不需要额外修改程序本身，故它的任何不在于处理多国语文的问题。因此，这个转码接口只负责该数据库所采用的编码，与系统基底字集所采用的编码系统互转而已。它不包含如上述 iconv() 转码接口那样，可以做到任意编码系统间的互转。
此转码接口最大的用途在于方便程序做文字处理。因为地区原本的编码系统多半是采用「多字节」编码方式，例如 BIG5 就是将两个 8 位的字节组合起来使用，故称「多字节编码」。但当我们要在字符串中区分中文字与英文字母时就会遇到麻烦，因为前者是以两个字节来代表，后者确是以单一一个字节来代表，故我们要在程序中额外写入 BIG5 码的编码规则才行，而这样的程序就不能适用与其它的编码方式了。因此，当我们用此转换接口将它转成定长编码方式时，由于每个字 (不论中英文) 都是故定的长度 (即字节数)，我们称之为「宽字符 (wide character)」，这使得我们可以很方便做字符串处理。同时，我们的程序中也不必加入 BIG5 的编码规则，因为这些都在此转码接口中处理掉了，因此，这样写出来的程序就是一个支持 I18N 的程序，可以在不需要修改程序代码本身的情况下适用于各语系与编码系统。
然而，我们在前面也提过，定长编码方式 (即宽字符) 只能用于运作中的程序内部，如果在做数据输出入时可能因 CPU 的位序不同与各硬件系统的限制而出错。因此，当我们要做数据交换时，最好的方式是将它转回多字节编码，才能确保不会有问题。这在第 2 点的转换接口是不成问题的，因为基底字集与其多字节编码之间的对应是定义在区域化数据库中的；但在第 1 点的转换接口中，特别是 Unicode 或 UCS4，而且包含了如中日韩等多国语文数据的情况又如何呢？对于 Unicode 而言，其所对应的多字节编码为 UTF-8, 它可以将所有 Unicode 码转换成不定长度的字节，视其 Unicode 码值而定，而且转出来的多字节与 ASCII 编码兼容，故可以适用于所有的 UNIX 应用程序。至于 UCS4 所对应的多位原组编码则为 UTF-16, 它是将两个 UTF-8 字符组合而成的。