如何正确显示日文字符集编码的文本？

yjwx0017 2011-08-31 07:21:45

一个软件源码中的日文注释显示乱码，记事本打开也是乱码。
由此想到如果自己编写一个程序读取此文本，怎样才能正确显示呢？

网上查的一些都是设置控制面板语言选项，这不是我想要的答案，浏览器也没去设置控制面板但是却可以根据不同的编码方式显示正确文本，浏览器是如何实现的。

有没有有关设置字符集的api。
谢谢

...全文

4367 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

yjwx0017 2011-08-31

打赏
举报

回复

谢谢---------------

苍蝇①号 2011-08-31

打赏
举报

回复

unicode才是王道，

辰岡墨竹 2011-08-31

打赏
举报

回复

日文用的是Shift-JIS编码。
对于Win7，可以用新的ELS(Extended Linguistic Services)，可以很容易进行文本编码识别，下面这个带源代码例子。
http://msdn.microsoft.com/en-us/goglobal/dd156834
对于较早的版本，可以用IE的MLang组件中的IMultiLang2接口。它提供DetectInputCodepage和DetectCodepageInIStream函数，可以用来检测字符串和流的编码。
http://msdn.microsoft.com/en-us/library/aa741001(v=VS.85).aspx
检测编码后，可以直接用NLS(National Language Support)来设置线程的Locale，这样就可以让控件能正确显示对应的编码。
http://msdn.microsoft.com/en-us/goglobal/dd565826
http://msdn.microsoft.com/en-us/library/dd319078(v=vs.85).aspx
当然也可以自己用MultiByteToWideChar直接将Shift-JIS转换为Unicode。不建议转换为GBK。因为GBK没有包含全部的日文汉字，日语中很多自造汉字和异体字，这个用Unicode配合对应的日文字体才能将其正确的显示。Unicode在建立中日韩CJK时将一些相近的汉字字形（比如草字头、宝干头等不同地区写法是不同的）进行了归并，只有用日文字体（比如 MS明朝即 MS Mincho）才能正确显示。

jackyjkchen 2011-08-31

打赏
举报

回复

在中文内码的条件下，有三种方式

1.转成unicode编码

2.转成GBK编码，GBK编码同样有日文字符集，只是某些和制汉字会显示成中国风格的

3.该系统字符集代码页，比较简单的方式失去M$下载个Microsoft Applocale软件能改变某个软件的内码而不影响系统

qq120848369 2011-08-31

打赏
举报

回复

UNICODE编码是万能的，它驾驭了一切字符。

存储的时候可能是UTF-8格式的，选择好UTF-8解析方式，自然而然系统就会把UTF-8转回UNICODE编码，然后去系统里一查表就把正确的字符打印给你了。

生活中，我们使用着各种各样的字符，比如数字、字母、汉字，甚至还有表情，比如????。平时，我们习惯使用输入法输入字符，所以我们不需要了解字符底层的一些知识，比如字符的存储、字符的编码转换等，但也正因如此，我们常常面对乱码的问题而感到手足无措。今天，这篇文章将给你带来字符集及字符编码的一些知识，让你摆脱有关字符编码的一切烦恼！

问题的引入：在InputStreamReader（OutputStreamWriter）的构造方法中，有指定字符集编码，那么什么是字符集？有哪些常用的字符集？怎么用字符集进行编码？一什么是字符集？　　字符：字符(Char)是各种文字和符号的总称，包括各国家文字、标点符号、图形符号、数字等。　　 字符集：字符集(Charset)是多个字符的集合，字符集种类较多，每个字符集包含

字符集与字符集编码详解我们知道，计算机只能识别诸如 0101 这样的二进制数，于是人们必须以二进制数据与计算机进行交互，或者先将人类使用的字符按一定规则转换为二进制数。那什么是字符呢？在计算机领域，我们把诸如文字、标点符号、图形符号、数字等统称为字符。而由字符组成的集合则成为字符集，字符集由于包含字符的多少与异同而形成了各种不同的字符集。我们知道，所有字符在计算机中都是以二进制来存储的。那...

查询网址： https://www.qqxiuzi.cn/bianma/zifuji.php 查询示例：常见的汉字字符集编码： GB2312编码：1981年5月1日发布的简体中文汉字编码国家标准。GB2312对汉字采用双字节编码，收录7445个图形字符，其中包括6763个汉字。 BIG5编码：台湾地区繁体中文标准字符集，采用双字节编码，共收录13053...

字符集与字符集编码什么是是字符集 什么是字符集编码，为什么需要字符集编码单字节字符集 ASCII ASCII （American Standard Code for InformationI nterchange，美国信息交换标准代码）由电报码发展而来。第一版标准发布于1963年，1967年经历了一次主要修订，最后一次更新则是在1986年，至今为止共定义了128个字符；其中33个字符无法显示（一些终端提供了扩展，使得这些字符可显示为诸如笑脸、扑克牌花式等8-bit符号），且这33个字符多数都已是

64,687

社区成员

250,497

社区内容

发帖

与我相关

我的任务

c++ 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

请不要发布与C++技术无关的贴子
请不要发布与技术无关的招聘、广告的帖子
请尽可能的描述清楚你的问题，如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧

+ 用AI写文章