C语言实现ASCII编码与Unicode编码的转换

songguozhi 2009-10-25 01:32:48
C语言实现ASCII编码与Unicode编码的转换??
详细步骤及代码?

哪位赐教!!!!
...全文
1632 12 打赏 收藏 转发到动态 举报
写回复
用AI写文章
12 条回复
切换为时间正序
请发表友善的回复…
发表回复
songguozhi 2009-10-29
  • 打赏
  • 举报
回复
哪位还有什么好的方法不啊?
butwang 2009-10-25
  • 打赏
  • 举报
回复
size_t mbstowcs(
wchar_t *wcstr,
const char *mbstr,
size_t count
);

size_t wcstombs(
char *mbstr,
const wchar_t *wcstr,
size_t count
);
====================
This program illustrates the behavior of the wcstombs function.
Copy Code
// crt_wcstombs.c
// compile with: /W1
// This example demonstrates the use
// of wcstombs, which converts a string
// of wide characters to a string of
// multibyte characters.

#include <stdlib.h>
#include <stdio.h>

#define BUFFER_SIZE 100

int main( void )
{
size_t count;
char *pMBBuffer = (char *)malloc( BUFFER_SIZE );
wchar_t *pWCBuffer = L"Hello, world.";

printf("Convert wide-character string:\n" );

count = wcstombs(pMBBuffer, pWCBuffer, BUFFER_SIZE ); // C4996
// Note: wcstombs is deprecated; consider using wcstombs_s instead
printf(" Characters converted: %u\n",
count );
printf(" Multibyte character: %s\n\n",
pMBBuffer );

free(pMBBuffer);
}


Output

Convert wide-character string:
Characters converted: 13
Multibyte character: Hello, world.
  • 打赏
  • 举报
回复
[Quote=引用 9 楼 whg01 的回复:]
Windows下,就是MultiByteToWideChar, WideCharToMultiByte
Linux下,就是iconv,或者QT的库。
[/Quote]

是的,也可以用C直接查表呀
whg01 2009-10-25
  • 打赏
  • 举报
回复
Windows下,就是MultiByteToWideChar, WideCharToMultiByte
Linux下,就是iconv,或者QT的库。
晓楠得一录 2009-10-25
  • 打赏
  • 举报
回复
个人认为用Linux下的iconv函数比较简单
  • 打赏
  • 举报
回复
setlocale
mbstowcs

#include <stdio.h>
#include<locale.h>
int main()
{
const char* p ="a字符串b";
wchar_t out[16]={0};
setlocale( LC_ALL , "chs" );
mbstowcs( out , p , strlen(p) );
printf("%S" , out );
return 0;
}
hua_cai 2009-10-25
  • 打赏
  • 举报
回复
楼上转得很好:)
如果是在windows下的话,是有宏可以转换的。
企-鹅 2009-10-25
  • 打赏
  • 举报
回复
偶只是利用CSDN搜索 博客园 搜索 可以找到很多相关内容……

菜鸟帮顶……

还等大牛回答吧……
企-鹅 2009-10-25
  • 打赏
  • 举报
回复

【转】Unicode ASCII 编码转换


这有两个函数!
第一个是将Unicode变成ASCII
第二个是将ASCII变成Unicode
你可以将Unicode变成ASCII后进行操作,然后再ASCII变成Unicode保存

inline LPTSTR B2A(BSTR lp)
{
int nLen=(lstrlenW(lp)+1) < <1;
LPTSTR str=new char[nLen];
WideCharToMultiByte(CP_ACP, 0, lp, -1, str, nLen, NULL, NULL);
return str;
}

inline BSTR A2B(LPCSTR lp)
{
int nLen = lstrlen(lp)>>1-1;
BSTR str = ::SysAllocStringLen(NULL, nLen);
MultiByteToWideChar(CP_ACP, 0, lp, -1, str, nLen);
return str;
}


仔细做好串处理
这一部分将花点时间来讨论如何在COM代码中处理串。如果你熟悉Unicode 和ANSI,并知道如何对它们进行转换的话,你就可以跳过这一部分,否则还是读一下这一部分的内容。
不管什么时候,只要COM方法返回一个串,这个串都是Unicode串(这里指的是写入COM规范的所有方法)。Unicode是一种字符编码集,类似ASCII,但用两个字节表示一个字符。如果你想更好地控制或操作串的话,应该将它转换成TCHAR类型串。
TCHAR和以_t开头的函数(如_tcscpy())被设计用来让你用相同的源代码处理Unicode和ANSI串。在大多数情况下编写的代码都是用来处理ANSI串和ANSI WindowsAPIs,所以在下文中,除非另外说明,我所说的字符/串都是指TCHAR类型。你应该熟练掌握TCHAR类型,尤其是当你阅读其他人写的有关代码时,要特别注意TCHAR类型。
当你从某个COM方法返回得到一个Unicode串时,可以用下列几种方法之一将它转换成char类型串:

1、调用 WideCharToMultiByte() API。
2、调用CRT 函数wcstombs()。
3、使用CString 构造器或赋值操作(仅用于MFC )。
4、使用ATL 串转换宏。
WideCharToMultiByte()
你可以用WideCharToMultiByte()将一个Unicode串转换成一个ANSI串。此函数的原型如下:
int WideCharToMultiByte (
UINT CodePage,
DWORD dwFlags,
LPCWSTR lpWideCharStr,
int cchWideChar,
LPSTR lpMultiByteStr,
int cbMultiByte,
LPCSTR lpDefaultChar,
LPBOOL lpUsedDefaultChar );

以下是参数解释:
CodePage
Unicode字符转换成的代码页。你可以传递CP_ACP来使用当前的ANSI代码页。代码页是256个字符集。字符0——127与ANSI编码一样。字符128——255与ANSI字符不同,它可以包含图形字符或者读音符号。每一种语言或地区都有其自己的代码页,所以使用正确的代码页对于正确地显示重音字符很重要。
dwFlags
dwFlags 确定Windows如何处理“复合” Unicode字符,它是一种后面带读音符号的字符。如è就是一个复合字符。如果这些字符在CodePage参数指定的代码页中,不会出什么事。否则,Windows必须对之进行转换。
传递WC_COMPOSITECHECK使得这个API检查非映射复合字符。
传递WC_SEPCHARS使得Windows将字符分为两段,即字符加读音,如e`。
传递WC_DISCARDNS使得Windows丢弃读音符号。
传递WC_DEFAULTCHAR使得Windows用lpDefaultChar参数中说明的缺省字符替代复合字符。
缺省行为是WC_SEPCHARS。
lpWideCharStr
要转换的Unicode串。
cchWideChar
lpWideCharStr在Unicode 字符中的长度。通常传递-1,表示这个串是以0x00结尾。
lpMultiByteStr
接受转换的串的字符缓冲
cbMultiByte
lpMultiByteStr的字节大小。
lpDefaultChar
可选——当dwFlags包含WC_COMPOSITECHECK | WC_DEFAULTCHAR并且某个Unicode字符不能被映射到同等的ANSI串时所传递的一个单字符ANSI串,包含被插入的“缺省”字符。可以传递NULL,让API使用系统缺省字符(一种写法是一个问号)。
lpUsedDefaultChar
可选——指向BOOL类型的一个指针,设置它来表示是否缺省字符曾被插入ANSI串。可以传递NULL来忽略这个参数。
我自己都有点晕菜了……!,万事开头难啊……,不搞清楚这些东西就很难搞清楚COM的串处理。何况文档中列出的比实际应用的要复杂得多。下面就给出了如何使用这个API的例子:
// 假设已经有了一个Unicode 串 wszSomeString...
char szANSIString [MAX_PATH];

WideCharToMultiByte ( CP_ACP, // ANSI 代码页
WC_COMPOSITECHECK, // 检查重音字符
wszSomeString, // 原Unicode 串
-1, // -1 意思是串以0x00结尾
szANSIString, // 目的char字符串
sizeof(szANSIString), // 缓冲大小
NULL, // 肥缺省字符串
NULL ); // 忽略这个参数
调用这个函数后,szANSIString将包含Unicode串的ANSI版本。

wcstombs()
这个CRT函数wcstombs()是个简化版,但它终结了WideCharToMultiByte()的调用,所以最终结果是一样的。其原型如下:
size_t wcstombs (
char* mbstr,
const wchar_t* wcstr,
size_t count );

以下是参数解释:
mbstr
接受结果ANSI串的字符(char)缓冲。
wcstr
要转换的Unicode串。
count
mbstr参数所指的缓冲大小。

wcstombs()在它对WideCharToMultiByte()的调用中使用WC_COMPOSITECHECK | WC_SEPCHARS标志。用wcstombs()转换前面例子中的Unicode串,结果一样:

wcstombs ( szANSIString, wszSomeString, sizeof(szANSIString) );
CString
MFC中的CString包含有构造函数和接受Unicode串的赋值操作,所以你可以用CString来实现转换。例如:

// 假设有一个Unicode串wszSomeString...

CString str1 ( wszSomeString ); // 用构造器转换
CString str2;

str2 = wszSomeString; // 用赋值操作转换

ATL宏
ATL有一组很方便的宏用于串的转换。W2A()用于将Unicode串转换为ANSI串(记忆方法是“wide to ANSI”——宽字符到ANSI)。实际上使用OLE2A()更精确,“OLE”表示的意思是COM串或者OLE串。下面是使用这些宏的例子:

#include <atlconv.h>

// 还是假设有一个Unicode串wszSomeString...

{
char szANSIString [MAX_PATH];
USES_CONVERSION; // 声明这个宏要使用的局部变量

lstrcpy ( szANSIString, OLE2A(wszSomeString) );
}

OLE2A()宏“返回”转换的串的指针,但转换的串被存储在某个临时栈变量中,所以要用lstrcpy()来获得自己的拷贝。其它的几个宏是W2T()(Unicode 到 TCHAR)以及W2CT()(Unicode到常量TCHAR串)。
有个宏是OLE2CA()(Unicode到常量char串),可以被用到上面的例子中,OLE2CA()实际上是个更正宏,因为lstrcpy()的第二个参数是一个常量char*,关于这个问题本文将在以后作详细讨论。
另一方面,如果你不想做以上复杂的串处理,尽管让它还保持为Unicode串,如果编写的是控制台应用程序,输出/显示Unicode串时应该用全程变量std::wcout,如:

wcout << wszSomeString;

但是要记住,std::wcout只认Unicode,所以你要是“正常”串的话,还得用std::cout输出/显示。对于Unicode串文字量,要使用前缀L标示,如:

wcout << L"The Oracle says..." << endl << wszOracleResponse;

如果保持串为Unicode,编程时有两个限制:

—— 必须使用wcsXXX() Unicode串处理函数,如wcslen()。
—— 在Windows 9x环境中不能在Windows API中传递Unicode串。要想编写能在9x和NT上都能运行的应用,必须使用TCHAR类型,详情请参考MSDN。

用例子代码总结上述内容
下面用两个例子演示本文所讲的COM概念。代码中还包含了本文的例子工程。
使用单接口COM对象
第一个例子展示的是单接口COM对象。这可能是你碰到得最简单的例子。它使用外壳中的活动桌面组件对象类(CLSID_ActiveDesktop)来获得当前桌面墙纸的文件名。请确认系统中安装了活动桌面(Active Desktop)。
以下是编程步骤:

初始化COM库。 (Initialize)
创建一个与活动桌面交互的COM对象,并取得IActiveDesktop接口。
调用COM对象的GetWallpaper()方法。
如果GetWallpaper()成功,则输出/显示墙纸文件名。
释放接口(Release())。
收回COM库(Uninitialize)。

WCHAR wszWallpaper [MAX_PATH];
CString strPath;
HRESULT hr;
IActiveDesktop* pIAD;

// 1. 初始化COM库(让Windows加载DLLs)。通常是在程序的InitInstance()中调用
// CoInitialize ( NULL )或其它启动代码。MFC程序使用AfxOleInit()。

CoInitialize ( NULL );

// 2. 使用外壳提供的活动桌面组件对象类创建COM对象。
// 第四个参数通知COM需要什么接口(这里是IActiveDesktop).

hr = CoCreateInstance ( CLSID_ActiveDesktop,
NULL,
CLSCTX_INPROC_SERVER,
IID_IActiveDesktop,
(void**) &pIAD );

if ( SUCCEEDED(hr) )
{
// 3. 如果COM对象被创建成功,则调用这个对象的GetWallpaper() 方法。
hr = pIAD->GetWallpaper ( wszWallpaper, MAX_PATH, 0 );

if ( SUCCEEDED(hr) )
{
// 4. 如果 GetWallpaper() 成功,则输出它返回的文件名字。
// 注意这里使用wcout 来显示Unicode 串wszWallpaper. wcout 是
// Unicode 专用,功能与cout.相同。
wcout << L"Wallpaper path is:\n " << wszWallpaper << endl << endl;
}
else
{
cout << _T("GetWallpaper() failed.") << endl << endl;
}

// 5. 释放接口。
pIAD->Release();
}
else
{
cout << _T("CoCreateInstance() failed.") << endl << endl;
}

// 6. 收回COM库。MFC 程序不用这一步,它自动完成。
CoUninitialize();

在这个例子中,输出/显示Unicode 串 wszWallpaper用的是std::wcout。



企-鹅 2009-10-25
  • 打赏
  • 举报
回复
以前CSDN上大牛的回答,转载 供参考


GB2312(Ascii)转Unicode:
找到一张Unicode表(数组,太大不好贴,网上有,注意有的对齐方式不同):
做两个函数:

extern unsigned short unicodeArray[] = { //Unicode,太大自已找。
};

int GB2Unicode(char *cc, wchar_t *wc, long nSourLen)
{
long i = 0; //源GB2312字符串计数
long j = 0; //目标Unicode字符串计数
long index;

wchar_t wChar = 0x0000;

if (cc == 0x00000000) //cc == NULL ,return FALSE
{
return -1;
}

while (i < nSourLen)
{
if ((unsigned char)cc[i] >= 0xa1)
{
index = ((unsigned char)cc[i] - 0xa1) * 96 + (unsigned char)cc[i+1] - 0xa0;
if (index < 16357)
{
wChar = unicodeArray[index];
wc[j] = wChar;
i++;
i++;
j++;
}
else
{
wChar = (unsigned short)(cc[i]);
wc[j]= wChar;
i++;
i++;
j++;
}
}
else
{
wChar = (unsigned short)(cc[i]);
wc[j] = wChar;
i++;
j++;
}
}
wc[j] = 0x0000;

return j;
}


//////////////////////////////////////////////////////////////////////////////////
//从Unicode转化到GB2312编码(Unicode是DBCS,GB2312是属于mbcs,汉字占两个字节, 英文占一个)
//Argument: wc是源Unicode字符串
// cc是转化后的目标GB2312字符串
// nSourLen是源Unicode的字节长度
//Return: 返回从Unicode 转化为GB2312的字节数
//////////////////////////////////////////////////////////////////////////////////
int Unicode2GB(const wchar_t*wc, char*cc, long nSourLen)
{

int i = 0; //源Unicode字符串计数
int j = 0; //目标GB2312字符串字节计数
int len = nSourLen; //待转换的wc数组的大小,
wchar_t wChar;
int k = 0;

while (i < len)
{
if (wc[i] >= 0x3000)
{
for (k = 0; k < 16356; k++)
{
wChar = unicodeArray[k];
if (wChar == wc[i])
{
int bb = 0xa1 + k/96;
int dd = 0xa1 + k - 96*(k/96) -1;
cc[j] = bb;
cc[j+1] = dd;
j = j + 2;
break;
}
}
}
else
{
cc[j] = (char)wc[i];
j++ ;
}
i++;
}
cc[j] = '\0';
return j;
}

jackyjkchen 2009-10-25
  • 打赏
  • 举报
回复
不用API、宏、ATL的话,只能查表对应了,尤其是汉字;英文加个0x00就行了
kouwenlong 2009-10-25
  • 打赏
  • 举报
回复
mark

69,322

社区成员

发帖
与我相关
我的任务
社区描述
C语言相关问题讨论
社区管理员
  • C语言
  • 花神庙码农
  • 架构师李肯
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧