中文?英文?UTF-8?保护我们的母语!
问题:
我们有一个中文信息系统,其采用2字节编码,需要800G存储空间。
如果新编码多了一个字节,我们将需要添置400G存储空间。假设每G8元的成本,我们要多付8*400=3200元。
我们用极端假设法:假设中国原来需1000亿G这种中文储存空间,因为多了一字节,我们需要添置500亿G储存空间,成本提高了8*500亿=4000亿元。
4000亿,你怎么想?
================================
批判:
批判用统一的字节数统一世界语言编码!理由如上。
批判UTF-8编码以提高非英语为母语国家的信息存储成本来达到减少以英语为母语的国家的信息存储成本。Unicode原来所有语言统一是2个字节,UTF-8将英语减少到一个字节,而其它语言增加到了3个字节。
后果是非常严重的,其提高了英语的竞争地位,降低了其它语言的地位。这是一种语言帝国主义!保护我们的母语,拒绝UTF-8!
================================
提议:
让统一字节数的编码思想见鬼去吧。
编码原则:拒绝语言不平等、拒绝存储空间膨胀
方案: 语言分类,各自编码,同形符号统一编码(属于不同类,但码值相同)。将使用频率差距大的语言符号分成不同的类。用2字节将全世界所有符号类编码。全世界大约6800种语言,2字节可描述65536类(约十倍)符号。不同类符号表述之前加上类编号。
理由: 在中文文章里,英文通常占得较少,反之亦然。可使所有语言存储最小化,又能混合其它语言表述思想。
结果:一篇纯中文的文章只需增加2个字节的符号类编号。其它语言也一样。一篇中英文文章,如果其语言混合程度不高的化,只需付出很小代价。
很难想象一个中文字符一个英文字符的应用是什么应用。这种应用就是此编码方法的大敌了。
2005-09-29日
于昆明