unicode大端,小端相互转化

jianghuaijie 2014-07-17 10:07:50
代码怎么写
#define REVERSE(x) ((((x) & 0x00FF) << 8 | (((x) & 0xFF00) >> 8))

wchar_t *wTemp = szwBuffer;
for (; *wTemp != 0x0000; ++wTemp)
{
*wTemp = REVERSE(*wTemp);
}
不知道这个对不对,求高人指教
...全文
480 16 打赏 收藏 转发到动态 举报
写回复
用AI写文章
16 条回复
切换为时间正序
请发表友善的回复…
发表回复
jianghuaijie 2014-07-21
  • 打赏
  • 举报
回复
读取前两个字节判断编码方式不准确吗
jianghuaijie 2014-07-21
  • 打赏
  • 举报
回复
非常感谢你耐心的讲解,虽然分数不多,但是了胜于无,时刻关注你。
jianghuaijie 2014-07-21
  • 打赏
  • 举报
回复
假如 txt 编码方式是UTF-16(BE),读取,保存到一个字符串中,高低字节位顺序还是大端? 而且我的目的是读取Unicode(BE)txt文档,正常显示在edit控件上 vs2010 这个问题已经解决了,读取后,进行高位字节转换就行了,我自己写多了
阿呆_ 2014-07-21
  • 打赏
  • 举报
回复
BOM并不是utf标准要求的(好像只有UTF-16BE明确要求不使用BOM),所以前两个字节不是BOM也可以是合法的UTF
阿呆_ 2014-07-18
  • 打赏
  • 举报
回复
一种判断Unicode编码方式==字节流读入文件到char* buffer,在buffer中搜索‘\0’,如果有,那么是UTF-16,否则是UTF-8,判断\0字符位置,如果处于buffer[1],buffer[3],buffer[5]...位置的--UTF-16LE,否则--UTF-16BE。 对UTF-16LE编码的,将buffer用wchar_t* 指向,判断第一个wchar是否BOM, 是则跳过,然后可以直接使用了; 对UTF-16BE的,交换每个双字节的高低位后用wchar_t*指向即可使用; 对UTF-8编码的,调用MultiByteToWideChar(CP_UTF8, ...)将字节buffer中的内容转换到新分配的wchar_t*内存中使用。
jianghuaijie 2014-07-18
  • 打赏
  • 举报
回复
是 而且我的目的是读取Unicode(BE)txt文档,正常显示在edit控件上 vs2010
jianghuaijie 2014-07-17
  • 打赏
  • 举报
回复
wchar_t *wbstr=new wchar_t[len+1]; memset(wbstr,0,(len+1)*sizeof(wchar_t)); file.Seek(2,CFile::begin); file.Read(wbstr,len); wbstr[len]='\0'; file.Close(); //DWORD wbgstr=ToLittleEndian((DWORD)wbstr); //GetDlgItem(IDC_EDIT1)->SetWindowText(wbstr); wchar_t* wbgstr=wbstr; for (; *wbgstr != 0x0000; ++wbgstr) { *wbgstr= REVERSE(*wbgstr); } GetDlgItem(IDC_EDIT1)->SetWindowText(wbgstr);
jianghuaijie 2014-07-17
  • 打赏
  • 举报
回复
UTF-16BE 转换之后,运行让他在edit显示什么都没有;不转换的话显示乱码
阿呆_ 2014-07-17
  • 打赏
  • 举报
回复
你的unicode (be)是指什么? 如果UTF-8不需要转换; 如果UTF-16BE,用你的代码就可以; 如果UTF-32BE,你不但要转换字节顺序,还有将U+010000 ~ U+100000的unicode转换成两个UTF-16编码,同时要抛弃U+0000 ~ U+FFFF编码的高16位。
jianghuaijie 2014-07-17
  • 打赏
  • 举报
回复
我测试一小,机器是little endian怎么读取Unicode(be)文件
阿呆_ 2014-07-17
  • 打赏
  • 举报
回复
代码没什么问题。 不过适用范围非常狭窄,只适用于读取big endian机器生成的UTF-16文件。
阿呆_ 2014-07-17
  • 打赏
  • 举报
回复
OK,你确实只读了一半 -- 实际上是你分配的内存大了一倍。 len是byte数。 Anyway, that doesn't matter. 现在可疑的就是file.Seek(2,CFile::begin); 为什么要跳过开头2字节? 按UTF-16BE标准来说开头不包含BOM的,如果正巧是BOM, 它是作为一个合法的UNICODE存在的(ZERO WIDTH NO-BREAK SPACE), 所以存在两种可能,1、第一个字符unicode编码在范围0x010000 ~ 0x100000你跳过了surrogate pair 的lead part, 那么可能你解码的第一个字符(也只是第一个字符)是乱码(而且可能性非常小);2、文件编码根本不是UTF-16BE,看上去可能性非常大,很可能就是UTF-8的,因为UTF-8多字节编码的话每字节高位都是1,如果你直接将它作为UTF-16的话基本上都映射到plan14以后去了,那里大部分是没有分配的,即使分配了也是一些比如考古学用的古代文字。 所以你的问题还是解码问题而不是大小端问题。
jianghuaijie 2014-07-17
  • 打赏
  • 举报
回复
CFile::modeRead|CFile::typeBinary len=file.getlength()
阿呆_ 2014-07-17
  • 打赏
  • 举报
回复
问题应该是file.Read(wbstr,len);吧? 你的file是什么变量? 按常理file读写的都是字节数吧? 这样你只读了一半?
jianghuaijie 2014-07-17
  • 打赏
  • 举报
回复
能具体点吗,怎么用
这不是鸭头 2014-07-17
  • 打赏
  • 举报
回复
ntohs htons

16,467

社区成员

发帖
与我相关
我的任务
社区描述
VC/MFC相关问题讨论
社区管理员
  • 基础类社区
  • Web++
  • encoderlee
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

        VC/MFC社区版块或许是CSDN最“古老”的版块了,记忆之中,与CSDN的年龄几乎差不多。随着时间的推移,MFC技术渐渐的偏离了开发主流,若干年之后的今天,当我们面对着微软的这个经典之笔,内心充满着敬意,那些曾经的记忆,可以说代表着二十年前曾经的辉煌……
        向经典致敬,或许是老一代程序员内心里面难以释怀的感受。互联网大行其道的今天,我们期待着MFC技术能够恢复其曾经的辉煌,或许这个期待会永远成为一种“梦想”,或许一切皆有可能……
        我们希望这个版块可以很好的适配Web时代,期待更好的互联网技术能够使得MFC技术框架得以重现活力,……

试试用AI创作助手写篇文章吧