代码页？

PhilexPei 2003-12-12 03:14:17

对代码页的概念理解不清，请高手讲解。

...全文

141 4 打赏收藏转发到动态举报

写回复

用AI写文章

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

happydreamer 2003-12-12

打赏
举报

A code page is a character set, which can include numbers, punctuation marks, and other glyphs. Different languages and locales may use different code pages. For example, ANSI code page 1252 is used for English and most European languages; OEM code page 932 is used for Japanese Kanji.

A code page can be represented in a table as a mapping of characters to single-byte values or multibyte values. Many code pages share the ASCII character set for characters in the range 0x00 – 0x7F.

The Microsoft run-time library uses the following types of code pages:

System-default ANSI code page. By default, at startup the run-time system automatically sets the multibyte code page to the system-default ANSI code page, which is obtained from the operating system. The call:
setlocale ( LC_ALL, "" );
also sets the locale to the system-default ANSI code page.

Locale code page. The behavior of a number of run-time routines is dependent on the current locale setting, which includes the locale code page. (For more information, see Locale-Dependent Routines.) By default, all locale-dependent routines in the Microsoft run-time library use the code page that corresponds to the "C" locale. At run-time you can change or query the locale code page in use with a call to setlocale.
Multibyte code page. The behavior of most of the multibyte-character routines in the run-time library depends on the current multibyte code page setting. By default, these routines use the system-default ANSI code page. At run-time you can query and change the multibyte code page with _getmbcp and _setmbcp, respectively.
The "C" locale is defined by ANSI to correspond to the locale in which C programs have traditionally executed. The code page for the "C" locale ("C" code page) corresponds to the ASCII character set. For example, in the "C" locale, islower returns true for the values 0x61 – 0x7A only. In another locale, islower may return true for these as well as other values, as defined by that locale.

zjcxc 元老 2003-12-12

打赏
举报

排序规则
在 Microsoft® SQL Server™ 2000 中，字符串的物理存储由排序规则控制。排序规则指定表示每个字符的位模式以及存储和比较字符所使用的规则。

SQL Server 2000 支持在一个数据库中存储具有不同排序规则的对象。可为一直到列级的各级别指定不同的 SQL Server 2000 排序规则。可为表中的每列指派不同的排序规则。SQL Server 的早期版本仅支持每个 SQL Server 实例有一个排序规则。在 SQL Server 7.0 或更早的版本实例中创建的所有数据库和数据库对象具有相同的排序规则。

字符数据的存储方式
在计算机中，字符由不同的位模式（ON 或 OFF）表示。每个字节有 8 位，这 8 位可以有 256 种不同的 ON 和 OFF 组合模式。对于使用 1 个字节存储每个字符的程序，通过给每个位模式指派字符可表示最多 256 个不同的字符。2 个字节有 16 位，这 16 位可以有 65,536 种唯一的 ON 和 OFF 组合模式。使用 2 个字节表示每个字符的程序可表示最多 65,536 个字符。

单字节代码页是字符定义，这些字符映射到每个字节可能有的 256 种位模式中的每一种。代码页定义大小写字符、数字、符号以及 !、@、#、% 等特殊字符的位模式。每种欧洲语言（如德语和西班牙语）都有各自的单字节代码页。虽然用于表示 A 到 Z 拉丁字母表字符的位模式在所有的代码页中都相同，但用于表示重音字符（如"é"和"á"）的位模式在不同的代码页中却不同。如果在运行不同代码页的计算机间交换数据，必须将所有字符数据由发送计算机的代码页转换为接收计算机的代码页。如果源数据中的扩展字符在接收计算机的代码页中未定义，那么数据将丢失。如果某个数据库为来自许多不同国家的客户端提供服务，则很难为该数据库选择这样一种代码页，使其包括所有客户端计算机所需的全部扩展字符。而且，在代码页间不停地转换需要花费大量的处理时间。

仅靠单字节字符集存储许多语言所使用的字符也是不够的。例如，一些亚洲语言包含上千个字符，所以每个字符必须使用双字节。双字节字符集正是为这些语言定义的。但是，这些语言都有各自的代码页，在运行不同双字节代码页的计算机之间传输数据也存在困难。

SQL Server 2000 支持以下代码页。

代码页描述
1258 越南语
1257 波罗的语
1256 阿拉伯语
1255 希伯来语
1254 土耳其语
1253 希腊语
1252 拉丁 1 字符 (ANSI)
1251 西里尔语
1250 中欧语言
950 繁体中文
949 朝鲜语
936 简体中文
932 日语
874 泰国语
850 多语种 (MS-DOS Latin1)
437 MS-DOS 美国英语

为解决在网络中支持多种代码页时出现的字符转换和解释问题，ISO 标准化组织和称为 Unicode Consortium 的团体定义了 Unicode 标准。Unicode 使用双字节存储每个字符。由于 65,536 个字符足以涵盖世界上所有语言常用的字符，因此 Unicode 标准适用于所有的主要语言。如果网络中的所有计算机和程序都使用 Unicode，则无需进行任何字符转换，每个用户与所有其它用户看到的字符完全相同，并且不会丢失任何字符。

在运行 Microsoft Windows® 操作系统的计算机上，操作系统和 Windows 应用程序使用的代码页由 Windows 区域设置定义。区域设置是在安装操作系统时选择的。Windows 应用程序使用由 Windows 区域设置定义的代码页来解释数据。Windows 应用程序还支持宽字符数据，即 Unicode 数据。

SQL Server 2000 支持两类字符数据类型：

Unicode 数据类型 nchar、nvarchar 和 ntext。这些数据类型使用 Unicode 字符表示法。代码页不适用于这些数据类型。

非 Unicode 字符数据类型 char、varchar 和 text。这些数据类型使用单字节或双字节代码页中定义的字符表示法。
有关字符数据的存储方式以及代码页、Unicode 和排序次序操作的更多信息，请参见在 http://msdn.microsoft.com MSDN® 页中的 Developing International Software for Windows 95 and Windows NT 4.0。

国际化数据和 Unicode
当只使用字符数据和代码页时，在一个数据库内很难以多种语言存储数据。很难为数据库找到一种代码页，能够存储所需全部语言特有的字符。对于运行各种代码页的不同客户端所读取和更新的特殊字符，要确保正确地转换也很困难。支持国际化客户端的数据库应始终使用 Unicode 数据，而不应使用非 Unicode 数据类型。

例如，北美洲客户的数据库必须处理三种主要语言：

墨西哥使用的西班牙文名称和地址。

魁北克使用的法文名称和地址。

加拿大的其余地区和美国使用的英文名称和地址。
当只使用字符列和代码页时须小心，以确保数据库所安装的代码页能够处理这三种语言的字符。当其中一种语言的字符由运行另一种语言的代码页的客户端读取时，必须更加小心以确保能够正确转换字符。

随着 Internet 的发展，支持众多运行不同区域设置的客户端计算机变得日益重要。很难选择这样一种代码页，使其包含的字符数据类型能够支持全球范围用户所需的全部字符。

管理国际化数据库中的字符数据的最简单方法是始终使用 Unicode nchar、nvarchar 和 ntext 数据类型，代替对应的非 Unicode 数据类型（char、varchar 和 text）。如果所有使用国际化数据库的应用程序也采用 Unicode 变量而不是非 Unicode 变量，那么在系统中的任何地方都无须进行字符转换。每个客户端与所有其它客户端看见的字符数据都完全相同。

对于可使用单字节代码页的系统，Unicode 数据需要的存储空间是非 Unicode 字符数据的两倍，但却消除了在代码页间转换扩展字符的必要，因此至少部分弥补了上面的不足。使用双字节代码页的系统没有这个问题。

SQL Server 2000 将所有的文本化系统目录数据都存储在包含 Unicode 数据类型的列中。数据库对象（如表、视图和存储过程）的名称存储在 Unicode 列中。这样就可以只使用 Unicode 开发应用程序，从而避免了所有的代码页转换问题。

排序次序
排序次序指定 SQL Server 解释、排序、比较和显示字符数据所使用的规则。例如，排序次序定义"a"是小于、等于还是大于"b"。排序次序定义排序规则是否区分大小写，例如"m"和"M"是否相同。另外还定义排序规则是否区分重音，例如"á"和"ä"是否相同。

SQL Server 2000 对每种排序规则使用两种排序次序，一种用于 Unicode 数据，另一种用于字符代码页。

许多 SQL Server 排序规则使用相同的代码页，但是代码页的排序次序不同。这使站点得以选择：

是否仅根据位模式所表示的数字值来排序字符。二进制排序的速度最快，这是因为 SQL Server 不用做任何调整并可使用快速、简单的排序算法。二进制排序次序始终区分大小写。由于代码页中的位模式可能不按照特定语言的字典规则所定义的序列排列，二进制排序有时并不按照使用该语言的用户所期待的序列对字符进行排序。

区分大小写还是不区分大小写。

区分重音还是不区分重音。

zjcxc 元老 2003-12-12

打赏
举报

联机帮助上说得很清楚啊.

happydreamer 2003-12-12

打赏
举报

语言确定文本和数据的格式约定，而国家/地区则确定区域约定。每种语言都有由“代码页”表示的唯一映射，映射包括字母表中的字符以外的字符（如标点符号和数字）。代码页是一个字符集并且与语言相关。因此，区域设置就成为语言、国家/地区和代码页的唯一组合。可以通过调用 setlocale 函数在运行时更改区域设置和代码页设置。

不同的语言可能使用不同的代码页。例如，ANSI 代码页 1252 用于英语和大多数欧洲语言，而 ANSI 代码页 932 则用于日本汉字。实际上，所有代码页都共享 ASCII 字符集中最低的 128 个字符（0x00 到 0x7F）。

任何单字节代码页都可使用一个包含 256 项的表来表示，在该表中表示为字节值到字符（包括数字和标点符号）或标志符号的映射。任何多字节代码页也可以表示为一个非常大的表（有 64K 项），包含双字节值到字符的映射。但实际上，对于前 256 个（单字节）字符，它通常用表表示；对于双字节值，则用范围表示。