C语言实现ASCII编码与Unicode编码的转换

songguozhi 2009-10-25 01:32:48

C语言实现ASCII编码与Unicode编码的转换？？
详细步骤及代码？

哪位赐教！！！！

...全文

1892 12 打赏收藏转发到动态举报

写回复

用AI写文章

12 条回复

切换为时间正序

请发表友善的回复…

发表回复

songguozhi 2009-10-29

打赏
举报

哪位还有什么好的方法不啊？

butwang 2009-10-25

打赏
举报

size_t mbstowcs(
wchar_t *wcstr,
const char *mbstr,
size_t count
);

size_t wcstombs(
char *mbstr,
const wchar_t *wcstr,
size_t count
);
====================
This program illustrates the behavior of the wcstombs function.
Copy Code
// crt_wcstombs.c
// compile with: /W1
// This example demonstrates the use
// of wcstombs, which converts a string
// of wide characters to a string of
// multibyte characters.

#include <stdlib.h>
#include <stdio.h>

#define BUFFER_SIZE 100

int main( void )
{
size_t count;
char *pMBBuffer = (char *)malloc( BUFFER_SIZE );
wchar_t *pWCBuffer = L"Hello, world.";

printf("Convert wide-character string:\n" );

count = wcstombs(pMBBuffer, pWCBuffer, BUFFER_SIZE ); // C4996
// Note: wcstombs is deprecated; consider using wcstombs_s instead
printf(" Characters converted: %u\n",
count );
printf(" Multibyte character: %s\n\n",
pMBBuffer );

free(pMBBuffer);
}

Output

Convert wide-character string:
Characters converted: 13
Multibyte character: Hello, world.

半吊子全栈工匠 2009-10-25

打赏
举报

[Quote=引用 9 楼 whg01 的回复:]
Windows下，就是MultiByteToWideChar, WideCharToMultiByte
Linux下，就是iconv，或者QT的库。
[/Quote]

是的，也可以用C直接查表呀

whg01 2009-10-25

打赏
举报

Windows下，就是MultiByteToWideChar, WideCharToMultiByte
Linux下，就是iconv，或者QT的库。

得一录 2009-10-25

打赏
举报

个人认为用Linux下的iconv函数比较简单

珍惜生命远离CPP 2009-10-25

打赏
举报

setlocale
mbstowcs



#include <stdio.h>

#include<locale.h>

int main()

{

	const char* p ="a字符串b";

	wchar_t out[16]={0};

	setlocale( LC_ALL , "chs" );

	mbstowcs( out , p , strlen(p) );

	printf("%S" , out );

	return 0;

}

hua_cai 2009-10-25

打赏
举报

楼上转得很好:)
如果是在windows下的话，是有宏可以转换的。

企-鹅 2009-10-25

打赏
举报

偶只是利用CSDN搜索博客园搜索可以找到很多相关内容……

菜鸟帮顶……

还等大牛回答吧……

企-鹅 2009-10-25

打赏
举报



【转】Unicode ASCII 编码转换





这有两个函数! 

第一个是将Unicode变成ASCII 

第二个是将ASCII变成Unicode 

你可以将Unicode变成ASCII后进行操作,然后再ASCII变成Unicode保存 

    

inline LPTSTR B2A(BSTR lp) 

{ 

      int nLen=(lstrlenW(lp)+1) < <1; 

      LPTSTR str=new char[nLen]; 

      WideCharToMultiByte(CP_ACP, 0, lp, -1, str, nLen, NULL, NULL); 

      return str; 

} 



inline BSTR A2B(LPCSTR lp) 

{ 

      int nLen = lstrlen(lp)>>1-1; 

      BSTR str = ::SysAllocStringLen(NULL, nLen); 

      MultiByteToWideChar(CP_ACP, 0, lp, -1, str, nLen); 

      return str; 

}





仔细做好串处理

    这一部分将花点时间来讨论如何在COM代码中处理串。如果你熟悉Unicode 和ANSI，并知道如何对它们进行转换的话，你就可以跳过这一部分，否则还是读一下这一部分的内容。

    不管什么时候，只要COM方法返回一个串，这个串都是Unicode串（这里指的是写入COM规范的所有方法）。Unicode是一种字符编码集，类似ASCII，但用两个字节表示一个字符。如果你想更好地控制或操作串的话，应该将它转换成TCHAR类型串。

     TCHAR和以_t开头的函数（如_tcscpy()）被设计用来让你用相同的源代码处理Unicode和ANSI串。在大多数情况下编写的代码都是用来处理ANSI串和ANSI WindowsAPIs，所以在下文中，除非另外说明，我所说的字符/串都是指TCHAR类型。你应该熟练掌握TCHAR类型，尤其是当你阅读其他人写的有关代码时，要特别注意TCHAR类型。

    当你从某个COM方法返回得到一个Unicode串时，可以用下列几种方法之一将它转换成char类型串：



1、调用 WideCharToMultiByte() API。

2、调用CRT 函数wcstombs()。

3、使用CString 构造器或赋值操作(仅用于MFC )。

4、使用ATL 串转换宏。  

WideCharToMultiByte()

    你可以用WideCharToMultiByte()将一个Unicode串转换成一个ANSI串。此函数的原型如下： 

int WideCharToMultiByte (

    UINT    CodePage,

    DWORD   dwFlags,

    LPCWSTR lpWideCharStr,

    int     cchWideChar,

    LPSTR   lpMultiByteStr,

    int     cbMultiByte,

    LPCSTR  lpDefaultChar,

    LPBOOL  lpUsedDefaultChar );

 

以下是参数解释：

CodePage 

Unicode字符转换成的代码页。你可以传递CP_ACP来使用当前的ANSI代码页。代码页是256个字符集。字符0——127与ANSI编码一样。字符128——255与ANSI字符不同，它可以包含图形字符或者读音符号。每一种语言或地区都有其自己的代码页，所以使用正确的代码页对于正确地显示重音字符很重要。

dwFlags 

dwFlags 确定Windows如何处理“复合” Unicode字符，它是一种后面带读音符号的字符。如è就是一个复合字符。如果这些字符在CodePage参数指定的代码页中，不会出什么事。否则，Windows必须对之进行转换。

传递WC_COMPOSITECHECK使得这个API检查非映射复合字符。

传递WC_SEPCHARS使得Windows将字符分为两段，即字符加读音，如e`。

传递WC_DISCARDNS使得Windows丢弃读音符号。

传递WC_DEFAULTCHAR使得Windows用lpDefaultChar参数中说明的缺省字符替代复合字符。

缺省行为是WC_SEPCHARS。

lpWideCharStr 

要转换的Unicode串。

cchWideChar 

lpWideCharStr在Unicode 字符中的长度。通常传递-1，表示这个串是以0x00结尾。

lpMultiByteStr 

接受转换的串的字符缓冲

cbMultiByte 

lpMultiByteStr的字节大小。

lpDefaultChar 

可选——当dwFlags包含WC_COMPOSITECHECK | WC_DEFAULTCHAR并且某个Unicode字符不能被映射到同等的ANSI串时所传递的一个单字符ANSI串，包含被插入的“缺省”字符。可以传递NULL，让API使用系统缺省字符（一种写法是一个问号）。

lpUsedDefaultChar 

可选——指向BOOL类型的一个指针，设置它来表示是否缺省字符曾被插入ANSI串。可以传递NULL来忽略这个参数。

我自己都有点晕菜了……!，万事开头难啊……，不搞清楚这些东西就很难搞清楚COM的串处理。何况文档中列出的比实际应用的要复杂得多。下面就给出了如何使用这个API的例子： 

// 假设已经有了一个Unicode 串 wszSomeString...

char szANSIString [MAX_PATH];



    WideCharToMultiByte ( CP_ACP,                // ANSI 代码页

                          WC_COMPOSITECHECK, // 检查重音字符

                          wszSomeString,         // 原Unicode 串

                          -1,                    // -1 意思是串以0x00结尾

                          szANSIString,          // 目的char字符串

                          sizeof(szANSIString),  // 缓冲大小

                          NULL,                  // 肥缺省字符串

                          NULL );                // 忽略这个参数

调用这个函数后，szANSIString将包含Unicode串的ANSI版本。

 

wcstombs()

    这个CRT函数wcstombs()是个简化版，但它终结了WideCharToMultiByte()的调用，所以最终结果是一样的。其原型如下： 

size_t wcstombs (

    char*          mbstr,

    const wchar_t* wcstr,

    size_t         count );

 

以下是参数解释：

mbstr 

接受结果ANSI串的字符（char）缓冲。

wcstr 

要转换的Unicode串。

count 

mbstr参数所指的缓冲大小。



wcstombs()在它对WideCharToMultiByte()的调用中使用WC_COMPOSITECHECK | WC_SEPCHARS标志。用wcstombs()转换前面例子中的Unicode串，结果一样：



wcstombs ( szANSIString, wszSomeString, sizeof(szANSIString) ); 

CString

     MFC中的CString包含有构造函数和接受Unicode串的赋值操作，所以你可以用CString来实现转换。例如：



// 假设有一个Unicode串wszSomeString...



CString str1 ( wszSomeString ); // 用构造器转换

CString str2;



str2 = wszSomeString; // 用赋值操作转换



ATL宏

       ATL有一组很方便的宏用于串的转换。W2A()用于将Unicode串转换为ANSI串（记忆方法是“wide to ANSI”——宽字符到ANSI）。实际上使用OLE2A()更精确，“OLE”表示的意思是COM串或者OLE串。下面是使用这些宏的例子：



#include <atlconv.h>



// 还是假设有一个Unicode串wszSomeString...



{

char szANSIString [MAX_PATH];

USES_CONVERSION; // 声明这个宏要使用的局部变量



lstrcpy ( szANSIString, OLE2A(wszSomeString) );

}



OLE2A()宏“返回”转换的串的指针，但转换的串被存储在某个临时栈变量中，所以要用lstrcpy()来获得自己的拷贝。其它的几个宏是W2T()（Unicode 到 TCHAR）以及W2CT()（Unicode到常量TCHAR串）。 

有个宏是OLE2CA()（Unicode到常量char串），可以被用到上面的例子中，OLE2CA()实际上是个更正宏，因为lstrcpy()的第二个参数是一个常量char*，关于这个问题本文将在以后作详细讨论。

另一方面，如果你不想做以上复杂的串处理，尽管让它还保持为Unicode串，如果编写的是控制台应用程序，输出/显示Unicode串时应该用全程变量std::wcout，如：



wcout << wszSomeString;



但是要记住，std::wcout只认Unicode，所以你要是“正常”串的话，还得用std::cout输出/显示。对于Unicode串文字量，要使用前缀L标示，如：



wcout << L"The Oracle says..." << endl << wszOracleResponse;



如果保持串为Unicode，编程时有两个限制：



—— 必须使用wcsXXX() Unicode串处理函数，如wcslen()。

—— 在Windows 9x环境中不能在Windows API中传递Unicode串。要想编写能在9x和NT上都能运行的应用，必须使用TCHAR类型，详情请参考MSDN。



用例子代码总结上述内容

    下面用两个例子演示本文所讲的COM概念。代码中还包含了本文的例子工程。

使用单接口COM对象

    第一个例子展示的是单接口COM对象。这可能是你碰到得最简单的例子。它使用外壳中的活动桌面组件对象类（CLSID_ActiveDesktop）来获得当前桌面墙纸的文件名。请确认系统中安装了活动桌面（Active Desktop）。 

以下是编程步骤：



初始化COM库。 （Initialize）

创建一个与活动桌面交互的COM对象，并取得IActiveDesktop接口。

调用COM对象的GetWallpaper()方法。

如果GetWallpaper()成功，则输出/显示墙纸文件名。

释放接口（Release()）。

收回COM库（Uninitialize）。



WCHAR   wszWallpaper [MAX_PATH];

CString strPath;

HRESULT hr;

IActiveDesktop* pIAD;



    // 1. 初始化COM库（让Windows加载DLLs）。通常是在程序的InitInstance()中调用

    // CoInitialize ( NULL )或其它启动代码。MFC程序使用AfxOleInit()。



    CoInitialize ( NULL );



    // 2. 使用外壳提供的活动桌面组件对象类创建COM对象。

    // 第四个参数通知COM需要什么接口(这里是IActiveDesktop).



    hr = CoCreateInstance ( CLSID_ActiveDesktop,

                            NULL,

                            CLSCTX_INPROC_SERVER,

                            IID_IActiveDesktop,

                            (void**) &pIAD );



    if ( SUCCEEDED(hr) )

        {

        // 3. 如果COM对象被创建成功，则调用这个对象的GetWallpaper() 方法。

        hr = pIAD->GetWallpaper ( wszWallpaper, MAX_PATH, 0 );



        if ( SUCCEEDED(hr) )

            {

            // 4. 如果 GetWallpaper() 成功，则输出它返回的文件名字。

            // 注意这里使用wcout 来显示Unicode 串wszWallpaper.  wcout 是

            // Unicode 专用，功能与cout.相同。

            wcout << L"Wallpaper path is:\n    " << wszWallpaper << endl << endl;

            }

        else

            {

            cout << _T("GetWallpaper() failed.") << endl << endl;

            }



        // 5. 释放接口。

        pIAD->Release();

        }

    else

        {

        cout << _T("CoCreateInstance() failed.") << endl << endl;

        }



    // 6. 收回COM库。MFC 程序不用这一步，它自动完成。

CoUninitialize();

 

在这个例子中，输出/显示Unicode 串 wszWallpaper用的是std::wcout。

企-鹅 2009-10-25

打赏
举报

以前CSDN上大牛的回答，转载供参考



GB2312(Ascii)转Unicode:   

  找到一张Unicode表(数组，太大不好贴，网上有，注意有的对齐方式不同):   

  做两个函数:   

    

  extern   unsigned   short   unicodeArray[]   =   {               //Unicode,太大自已找。   

  };   

    

  int   GB2Unicode(char   *cc,   wchar_t   *wc,   long   nSourLen)   

  {   

  long   i   =   0; //源GB2312字符串计数   

  long   j   =   0; //目标Unicode字符串计数   

  long   index;   

    

  wchar_t   wChar   =   0x0000;   

    

  if   (cc   ==   0x00000000) //cc   ==   NULL   ,return   FALSE   

  {   

  return   -1;   

  }   

    

  while   (i   <   nSourLen)   

  {   

  if   ((unsigned   char)cc[i]   >=   0xa1)   

  {   

  index   =   ((unsigned   char)cc[i]   -   0xa1)   *   96   +   (unsigned   char)cc[i+1]   -   0xa0;   

  if   (index   <   16357)   

  {   

  wChar   =   unicodeArray[index];   

  wc[j]   =   wChar;   

  i++;   

  i++;   

  j++;   

  }   

  else   

  {   

  wChar   =   (unsigned   short)(cc[i]);   

  wc[j]=   wChar;   

  i++;   

  i++;   

  j++;   

  }   

  }   

  else   

  {   

  wChar   =   (unsigned   short)(cc[i]);   

  wc[j]   =   wChar;   

  i++;   

  j++;   

  }   

  }   

  wc[j]   =   0x0000;   

    

  return   j;   

  }   

    

    

  //////////////////////////////////////////////////////////////////////////////////   

  //从Unicode转化到GB2312编码(Unicode是DBCS,GB2312是属于mbcs,汉字占两个字节,   英文占一个)   

  //Argument: wc是源Unicode字符串   

  // cc是转化后的目标GB2312字符串   

  // nSourLen是源Unicode的字节长度   

  //Return: 返回从Unicode   转化为GB2312的字节数   

  //////////////////////////////////////////////////////////////////////////////////   

  int   Unicode2GB(const   wchar_t*wc,   char*cc,   long   nSourLen)   

  {   

    

  int   i   =   0; //源Unicode字符串计数   

  int   j   =   0; //目标GB2312字符串字节计数   

  int   len   =   nSourLen; //待转换的wc数组的大小,   

  wchar_t   wChar;   

  int   k   =   0;   

    

  while   (i   <   len)   

  {   

  if   (wc[i]   >=   0x3000)   

  {   

  for   (k   =   0;   k   <   16356;   k++)   

  {   

  wChar   =   unicodeArray[k];   

  if   (wChar   ==   wc[i])   

  {   

  int   bb   =   0xa1   +   k/96;   

  int   dd   =   0xa1   +   k   -   96*(k/96)   -1;   

  cc[j]   =   bb;   

  cc[j+1]   =   dd;   

  j   =   j   +   2;   

  break;   

  }   

  }   

  }   

  else   

  {   

  cc[j]   =   (char)wc[i];   

  j++   ;   

  }   

  i++;   

  }   

  cc[j]   =   '\0';   

  return   j;   

  }