unicode大端，小端相互转化

jianghuaijie 2014-07-17 10:07:50

代码怎么写
#define REVERSE(x) ((((x) & 0x00FF) << 8 | (((x) & 0xFF00) >> 8))

wchar_t *wTemp = szwBuffer;
for (; *wTemp != 0x0000; ++wTemp)
{
*wTemp = REVERSE(*wTemp);
}
不知道这个对不对，求高人指教

...全文

575 16 打赏收藏转发到动态举报

写回复

用AI写文章

16 条回复

切换为时间正序

请发表友善的回复…

发表回复

jianghuaijie 2014-07-21

打赏
举报

读取前两个字节判断编码方式不准确吗

jianghuaijie 2014-07-21

打赏
举报

非常感谢你耐心的讲解，虽然分数不多，但是了胜于无，时刻关注你。

jianghuaijie 2014-07-21

打赏
举报

假如 txt 编码方式是UTF-16(BE)，读取，保存到一个字符串中，高低字节位顺序还是大端？而且我的目的是读取Unicode（BE）txt文档，正常显示在edit控件上 vs2010 这个问题已经解决了，读取后，进行高位字节转换就行了，我自己写多了

阿呆_ 2014-07-21

打赏
举报

BOM并不是utf标准要求的（好像只有UTF-16BE明确要求不使用BOM），所以前两个字节不是BOM也可以是合法的UTF

阿呆_ 2014-07-18

打赏
举报

一种判断Unicode编码方式==字节流读入文件到char* buffer，在buffer中搜索‘\0’，如果有，那么是UTF-16，否则是UTF-8，判断\0字符位置，如果处于buffer[1],buffer[3],buffer[5]...位置的--UTF-16LE，否则--UTF-16BE。对UTF-16LE编码的，将buffer用wchar_t* 指向，判断第一个wchar是否BOM, 是则跳过，然后可以直接使用了；对UTF-16BE的，交换每个双字节的高低位后用wchar_t*指向即可使用；对UTF-8编码的，调用MultiByteToWideChar(CP_UTF8, ...)将字节buffer中的内容转换到新分配的wchar_t*内存中使用。

jianghuaijie 2014-07-18

打赏
举报

是而且我的目的是读取Unicode（BE）txt文档，正常显示在edit控件上 vs2010

jianghuaijie 2014-07-17

打赏
举报

wchar_t *wbstr=new wchar_t[len+1]; memset(wbstr,0,(len+1)*sizeof(wchar_t)); file.Seek(2,CFile::begin); file.Read(wbstr,len); wbstr[len]='\0'; file.Close(); //DWORD wbgstr=ToLittleEndian((DWORD)wbstr); //GetDlgItem(IDC_EDIT1)->SetWindowText(wbstr); wchar_t* wbgstr=wbstr; for (; *wbgstr != 0x0000; ++wbgstr) { *wbgstr= REVERSE(*wbgstr); } GetDlgItem(IDC_EDIT1)->SetWindowText(wbgstr);

jianghuaijie 2014-07-17

打赏
举报

UTF-16BE 转换之后，运行让他在edit显示什么都没有；不转换的话显示乱码

阿呆_ 2014-07-17

打赏
举报

你的unicode (be)是指什么? 如果UTF-8不需要转换；如果UTF-16BE，用你的代码就可以；如果UTF-32BE，你不但要转换字节顺序，还有将U+010000 ~ U+100000的unicode转换成两个UTF-16编码，同时要抛弃U+0000 ~ U+FFFF编码的高16位。

jianghuaijie 2014-07-17

打赏
举报

我测试一小，机器是little endian怎么读取Unicode（be）文件

阿呆_ 2014-07-17

打赏
举报

代码没什么问题。不过适用范围非常狭窄，只适用于读取big endian机器生成的UTF-16文件。

阿呆_ 2014-07-17

打赏
举报

ＯＫ，你确实只读了一半 -- 实际上是你分配的内存大了一倍。 len是byte数。 Anyway, that doesn't matter. 现在可疑的就是file.Seek(2,CFile::begin); 为什么要跳过开头2字节？按UTF-16BE标准来说开头不包含BOM的，如果正巧是BOM, 它是作为一个合法的UNICODE存在的（ZERO WIDTH NO-BREAK SPACE), 所以存在两种可能，1、第一个字符unicode编码在范围0x010000 ~ 0x100000你跳过了surrogate pair 的lead part, 那么可能你解码的第一个字符（也只是第一个字符）是乱码（而且可能性非常小）；2、文件编码根本不是UTF-16BE，看上去可能性非常大，很可能就是UTF-8的，因为UTF-8多字节编码的话每字节高位都是1，如果你直接将它作为UTF-16的话基本上都映射到plan14以后去了，那里大部分是没有分配的，即使分配了也是一些比如考古学用的古代文字。所以你的问题还是解码问题而不是大小端问题。

jianghuaijie 2014-07-17

打赏
举报

CFile::modeRead|CFile::typeBinary len=file.getlength（）

阿呆_ 2014-07-17

打赏
举报

问题应该是file.Read(wbstr,len);吧？你的file是什么变量？按常理file读写的都是字节数吧？这样你只读了一半？

jianghuaijie 2014-07-17

打赏
举报

能具体点吗，怎么用

这不是鸭头 2014-07-17

打赏
举报

ntohs htons

分享一个读取GBK和UNICODE互转对照表文件形式，来实现汉字GBK转UNICODE和UTF-8 ； VS下配置为UNICODE环境了，这样键盘输入的直接是宽字符UNICODE码，也可以用多字节方式，键盘输入的GBK吗，反正是相互转换，大同小异了；主函数里插入 setlocale(LC_ALL, "chs"); 本工程用到了一个UNIGBK.BIN的二进制文件，里面是GBK和UNICODE互转对照表，一会把这个文件的链接发上来；以下是工程全部的代码； #include <st

　　对经常玩单片机的人员来说都知道怎样通过软件制作GBK字库，再使用GBK公式计算处理在LCD屏上显示中文汉字，如果不知道GBK制作软件及方式的话可以通过文末链接下载学习；这里主要是介绍UNICODE与GBK的相互转化，在一些应用场景可能只有UNICODE编码然后中文形式显示在LCD屏上，这时可能需要转换为GBK编码。 GBK与UNICODE没有直接对应的关系，通过查表方式将两者联系起来，具体实...

一、ASCII码与unicode码 1. ASCII：8bits的英文编码，实际使用低7位，127个字符。32（0x20）为空格，之前是控制字符，之后是有效字符。 2. Unicode：使用两字节对全球字符进行统一编码，有65536个编码，UCS-2为两字节版本(2^16 =65536)。 2.1 Unicode little endian：将Unicode中表示同一字符的两个字节顺序反过来...

介绍 \uxxxx这种格式是Unicode写法，表示一个字符，其中xxxx表示一个16进制数字，范围所0～65535. Unicode十六进制数只能包含数字0～9、大写字母A～F或者小写字母A～F。需要注意到是：Unicode的大小端问题，一般都是小端在前，例如 \u5c0f 表示汉语中的 '小'字，转换成10进制就是9215，所以在byte数组中应该是1592. 汉字转Unicode ...

VC/MFC

16,550

社区成员

421,606

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

VC/MFC社区版块或许是CSDN最“古老”的版块了，记忆之中，与CSDN的年龄几乎差不多。随着时间的推移，MFC技术渐渐的偏离了开发主流，若干年之后的今天，当我们面对着微软的这个经典之笔，内心充满着敬意，那些曾经的记忆，可以说代表着二十年前曾经的辉煌……
向经典致敬，或许是老一代程序员内心里面难以释怀的感受。互联网大行其道的今天，我们期待着MFC技术能够恢复其曾经的辉煌，或许这个期待会永远成为一种“梦想”，或许一切皆有可能……
我们希望这个版块可以很好的适配Web时代，期待更好的互联网技术能够使得MFC技术框架得以重现活力，……

试试用AI创作助手写篇文章吧

+ 用AI写文章