std::string存储的utf-8格式xml指令如何转换成普通的string

sinmeng 2009-08-12 08:35:37

utf-8格式的xml指令，存储在标准的std::string中，怎么把这个string转化成普通的多字节的string

utf-8编码中汉字是3个字节或以上的，普通的多字节不是这样表示的....

...全文

628 9 打赏收藏转发到动态举报

写回复

用AI写文章

9 条回复

切换为时间正序

请发表友善的回复…

发表回复

帅得不敢出门 2009-08-22

打赏
举报

[Quote=引用 4 楼 sinmeng 的回复:]
呃MultiBytesToWideChar还能把UTF-8转化成unicode么，我还真的不知道...
我只知道这个东西是用来转换多字节到宽字符的...
[/Quote]
参数 CodePage 有以下几种
CP_ACP ANSI code page
CP_MACCP Macintosh code page
CP_OEMCP OEM code page
CP_SYMBOL Windows 2000/XP: Symbol code page (42)
CP_THREAD_ACP Windows 2000/XP: The current thread's ANSI code page
CP_UTF7 Windows 98/Me, Windows NT 4.0 and later: Translate using UTF-7
CP_UTF8 Windows 98/Me, Windows NT 4.0 and later: Translate using UTF-8.
平常你使用的是CP_ACP

healer_kx 2009-08-13

打赏
举报

healer_kx 2009-08-12

打赏
举报



healer_kxinline std::string KS_UTF8_to_ANSI (const char* szUTF8)

{

    if (szUTF8 == NULL)

        return "" ;

	

    int     nLen = ::MultiByteToWideChar (CP_UTF8, 0, szUTF8, -1, NULL, 0) ;

    WCHAR   * pWstr = new WCHAR[nLen+1] ;

    ZeroMemory (pWstr, sizeof(WCHAR) * (nLen+1)) ;

    ::MultiByteToWideChar (CP_UTF8, 0, szUTF8, -1, pWstr, nLen) ;

    std::string     strAnsi (_bstr_t((wchar_t*)pWstr)) ;

    delete[] pWstr ;

    return strAnsi ;

}



inline char* KS_ANSI_to_UTF8 (const char* szAnsi)

{

    if (szAnsi == NULL)

        return NULL ;

	

    _bstr_t   bstrTmp (szAnsi) ;

    int       nLen = ::WideCharToMultiByte (CP_UTF8, 0, (LPCWSTR)bstrTmp, -1, NULL, 0, NULL, NULL) ;

    char      * pUTF8 = new char[nLen+1] ;

    ZeroMemory (pUTF8, nLen + 1) ;

    ::WideCharToMultiByte (CP_UTF8, 0, (LPCWSTR)bstrTmp, -1, pUTF8, nLen, NULL, NULL) ;

    return pUTF8 ;

}

oyljerry 2009-08-12

打赏
举报

[Quote=引用 4 楼 sinmeng 的回复:]
呃MultiBytesToWideChar还能把UTF-8转化成unicode么，我还真的不知道...
我只知道这个东西是用来转换多字节到宽字符的...
[/Quote]
附录：CPP程序utf82unicode.cpp
#include <stdio.h>
#include <string.h>

// UTF-8的unicode表示方法到unicode的值转换函数
bool utf82unicode(unsigned int byte[], int index, int count, int& unicode)
{
/* for (int i=index; i < count; ++i) {
printf("byte[%d]:%0Xn",i, byte[i]);
}
printf("byte[index] & 0x80: %0Xn", byte[index] & 0x80);
printf("byte[index] & 0xE0: %0Xn", byte[index] & 0xE0);
printf("byte[index] & 0xF0: %0Xn", byte[index] & 0xF0);
*/
if (index >= count) return false;
if ( (byte[index] & 0x80) == 0x0) // 一位
{
unicode = byte[index];
}
else if ((byte[index] & 0xE0) == 0xC0) // 两位
{
if (index + 1 >= count ) return false;
unicode = (((int)(byte[index] & 0x1F)) << 6)
| (byte[ index + 1] & 0x3F);
}
else if ((byte[index] & 0xF0) == 0xE0) // 三位
{
if (index + 2 >= count) return false;
unicode = (((int)(byte[index] & 0x0F)) << 12)
| (((int)(byte[index + 1] & 0x3F)) << 6)
| (byte[index + 2] & 0x3F);
}
else if ((byte[index] & 0xF8) == 0xF0) // 四位
{
if (index + 3 >= count) return false;
unicode = (((int)(byte[index] & 0x07)) << 18)
| (((int)(byte[index + 1] & 0x3F)) << 12)
| (((int)(byte[index + 2] & 0x3F)) << 6)
| (byte[index + 3] & 0x3F);
}
else if ((byte[index] & 0xFC) == 0xF8) // 五位
{
if (index + 4 >= count) return false;
unicode = (((int)(byte[index] & 0x03)) << 24)
| (((int)(byte[index + 1] & 0x3F)) << 18)
| (((int)(byte[index + 2] & 0x3F)) << 12)
| (((int)(byte[index + 3] & 0x3F)) << 6)
| (byte[index + 4] & 0x3F);
}
else if ((byte[index] & 0xFE) == 0xFC) // 六位
{
if (index + 5 >= count) return false;
unicode = (((int)(byte[index] & 0x01)) << 30)
| (((int)(byte[index + 1] & 0x3F)) << 24)
| (((int)(byte[index + 2] & 0x3F)) << 18)
| (((int)(byte[index + 3] & 0x3F)) << 12)
| (((int)(byte[index + 4] & 0x3F)) << 6)
| (byte[index + 5] & 0x3F);
}
else
{
return false;
}
return true;

}

然后unicode到多字节

healer_kx 2009-08-12

打赏
举报

我给你一段代码吧，

sinmeng 2009-08-12

打赏
举报

呃MultiBytesToWideChar还能把UTF-8转化成unicode么，我还真的不知道...
我只知道这个东西是用来转换多字节到宽字符的...

healer_kx 2009-08-12

打赏
举报

WideCharToMultiBytes
MultiBytesToWideChar
要学会用~

bohut 2009-08-12

打赏
举报

Unicode和UTF-8之间的转换详解
http://www.cnblogs.com/xdotnet/archive/2007/11/23/unicode_and_utf8.html

zqlong_sunday 2009-08-12

打赏
举报

用MultiByteToWideChar,将UTF-8转换成unicode
然后再利用WideCharToMultiByte转换成ASCII

本文深入剖析Qt的QString与标准库std::string在Unicode编码支持、内存管理（隐式共享vs SSO）、API功能丰富度及性能表现上的核心差异。重点分析UTF-16与UTF-8编码语义、构造/拷贝开销、常用操作效率，以及跨层转换的性能陷阱与避坑方案。结合UI开发、算法库、网络协议等实战场景，提出清晰的选型原则与混合使用架构规范，强调编码统一、边界转换和视图传递等关键技术实践。

本文介绍了在VC++环境中如何将wstring转换为UTF8格式的std::string，并演示了具体的代码实现过程。此外还探讨了使用UTF8作为内部字符串存储格式的优点。

本文详细阐述了C++中实现跨平台字符编码转换的核心技术方案，重点覆盖GBK、UTF-8与UTF-16LE之间的双向转换。针对Windows平台使用MultiByteToWideChar/WideCharToMultiByte API，Linux/Unix平台采用iconv库，统一封装为RAII风格的转换类。内容涵盖编码原理辨析、错误处理机制、线程安全设计、BOM识别策略、缓存优化及现代C++特性（std::string_view、std::optional、noexcept）的应用，强调明确指定编码而非依赖自动检测，提升健壮性与可维护性。

本文系统讲解C++中字符串编码转换的核心原理与工程实践，涵盖UTF-8、GBK、UTF-16等主流编码的映射规则，深入剖析std::string与std::wstring的编码语义差异；重点介绍Windows API（MultiByteToWideChar/WideCharToMultiByte）和跨平台iconv库的封装与使用；分析乱码根源（如‘锟斤拷’）、BOM处理、路径与控制台编码问题，并给出C++20/23中char8_t、std::format等现代方案及项目级UTF-8统一策略。

本文系统剖析C++ std::string的内存管理机制，重点讲解短字符串优化（SSO）、RAII内存安全、常见操作性能差异（如+ vs +=）、capacity/reserve优化策略、迭代器与STL算法集成，以及C++17 string_view等进阶特性。同时指出Unicode编码处理限制、悬垂指针风险、查找失败判断陷阱等关键性能与安全问题。

VC/MFC

16,550

社区成员

421,606

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

VC/MFC社区版块或许是CSDN最“古老”的版块了，记忆之中，与CSDN的年龄几乎差不多。随着时间的推移，MFC技术渐渐的偏离了开发主流，若干年之后的今天，当我们面对着微软的这个经典之笔，内心充满着敬意，那些曾经的记忆，可以说代表着二十年前曾经的辉煌……
向经典致敬，或许是老一代程序员内心里面难以释怀的感受。互联网大行其道的今天，我们期待着MFC技术能够恢复其曾经的辉煌，或许这个期待会永远成为一种“梦想”，或许一切皆有可能……
我们希望这个版块可以很好的适配Web时代，期待更好的互联网技术能够使得MFC技术框架得以重现活力，……

试试用AI创作助手写篇文章吧

+ 用AI写文章