中文?英文?UTF-8?保护我们的母语!

XiaoDingDangKM 2005-09-29 07:06:51
问题:
我们有一个中文信息系统,其采用2字节编码,需要800G存储空间。
如果新编码多了一个字节,我们将需要添置400G存储空间。假设每G8元的成本,我们要多付8*400=3200元。
我们用极端假设法:假设中国原来需1000亿G这种中文储存空间,因为多了一字节,我们需要添置500亿G储存空间,成本提高了8*500亿=4000亿元。
4000亿,你怎么想?
================================

批判:
批判用统一的字节数统一世界语言编码!理由如上。
批判UTF-8编码以提高非英语为母语国家的信息存储成本来达到减少以英语为母语的国家的信息存储成本。Unicode原来所有语言统一是2个字节,UTF-8将英语减少到一个字节,而其它语言增加到了3个字节。
后果是非常严重的,其提高了英语的竞争地位,降低了其它语言的地位。这是一种语言帝国主义!保护我们的母语,拒绝UTF-8!
================================

提议:
让统一字节数的编码思想见鬼去吧。
编码原则:拒绝语言不平等、拒绝存储空间膨胀
方案: 语言分类,各自编码,同形符号统一编码(属于不同类,但码值相同)。将使用频率差距大的语言符号分成不同的类。用2字节将全世界所有符号类编码。全世界大约6800种语言,2字节可描述65536类(约十倍)符号。不同类符号表述之前加上类编号。
理由: 在中文文章里,英文通常占得较少,反之亦然。可使所有语言存储最小化,又能混合其它语言表述思想。
结果:一篇纯中文的文章只需增加2个字节的符号类编号。其它语言也一样。一篇中英文文章,如果其语言混合程度不高的化,只需付出很小代价。
很难想象一个中文字符一个英文字符的应用是什么应用。这种应用就是此编码方法的大敌了。
2005-09-29日
于昆明
...全文
1264 33 打赏 收藏 转发到动态 举报
写回复
用AI写文章
33 条回复
切换为时间正序
请发表友善的回复…
发表回复
superhasty 2005-11-01
  • 打赏
  • 举报
回复
我也晕。
Tianminghui 2005-09-30
  • 打赏
  • 举报
回复
未来的主体是多媒体,文字相比之下可以忽略了
XiaoDingDangKM 2005-09-30
  • 打赏
  • 举报
回复
将中文常用字编码为2字节(65536个汉字,够了吧?),非常用字单独编类。简繁体使用相同的字编码,不同的类编码。这样一篇只使用常用字的中文(简/繁)文章,只增加文首的2字节类编码。常用字可是应用占类绝对多数应用哦。存储是否最小化了?
XiaoDingDangKM 2005-09-30
  • 打赏
  • 举报
回复
驳“nahuat(登录):好象现在还没有哪个操作系统只支持UTF-8”
UTF-8是老外正在推行的编码标准,知道计算机界的标准是谁定的吗?像ASCII。等你每天用UTF-8时,你就麻木了。MySQL数据库现在已经不支持2字节unicode(Java的标准编码)了。意味着,你要用3个字节存储汉字。可英语又恢复只用一个字节。为什么英文要从unicode的2字节减到1字节,老美们觉得“为了统一其它语言编码,将自己每天用的只需一个字节英语(ASCII)提高到unicode的2字节,成本太高。所以还是牺牲其它语言吧。”
驳“ckc(火): 他自己的文章中就是有中文又有英文的”
首先双语混合表述思想是比较常用的,统一编码就是为了混合表述的需要。如中英(如ckc(火)所说)。
我的编码思想的例子:
元语言:
0:计算机语言
1:中文简体常用字
2:中文简体非常用字
3:中文繁体常用字
4:中文繁体非常用字
5:英文
...
人类看到的是:
你好?How are you?

计算机看到的是:
|1|你好?|5|How are you?

多了2个2字节的类型码的负担。但英语照样是1字节编码,中文是两字节(简体常用字)。 各种语言各自编码,互不影响,较公平。

驳“ckc(火): 不用担心中文多占用存储空间”
1字节到2字节,增加多少成本。
2字节到3字节增加多少成本。
....
老美会算(ASCII到Unicode到UTF-8),咱中国人不会算吗?Unicode到UTF-8将使全世界英文Unicode信息系统存储成本减少一半。1千亿美元变成500亿,1万亿变成5千亿。咱中国人比老美更富?
vipiii 2005-09-30
  • 打赏
  • 举报
回复
神经病
yyy790601 2005-09-30
  • 打赏
  • 举报
回复
最近正在研究编码。
顶。
ckc 2005-09-30
  • 打赏
  • 举报
回复
俺要晕倒。
“很难想象一个中文字符一个英文字符的应用是什么应用。这种应用就是此编码方法的大敌了。”
他自己的文章中就是有中文又有英文的

这个编码方法俺也没看明白,按他的编码规则,是中文用1个字节就可以搞定还是强迫英文也用2个、3个字节?

另外,不用担心中文多占用存储空间。事实上,1个汉字2字节,1个英文字母1字节的时候,表达相同意义的文章,用中文比用英文要占用较小的存储空间。这是因为汉字意义较丰富,你可以理解为中文信息含量要高。
Well 2005-09-30
  • 打赏
  • 举报
回复
ding
ericofred 2005-09-30
  • 打赏
  • 举报
回复
to: qczl1224(倾请一世)

(小叮当)说的不是比较绝对成本
例:中文:早上好(6个字节)
英文:good morning(12个字节)
而是说明成本的变化。(感觉小叮当解释得口水都快要干了:P)
咱们的语言文法本身具有优越性,难道就因为这个而不患得患失了?

qczl1224(倾请一世)的看法感觉有些像以前皇帝的思想——中国地大物博,让给外国人些有何妨

这种小农思想还在当今的IT人中存在,真令人悲哀!
XiaoDingDangKM 2005-09-30
  • 打赏
  • 举报
回复
不是哪种语言省空间就用哪种语言!
再次强调,现在是多语言并存,混合语言表述思想这样一个事实。我的目的是用一种编码在各种应用上达到存储最小化,如只用1种语言的信息,2种、3种语言混合的信息。我们现在写文章常用到中文、英文字母、阿拉伯数字等。
mysql数据库的最新版本已经不支持2字节Unicode了,而改为UTF-8。这是标准化趋势(老外的标准)。如果你是mysql用户,从旧版本升为新版本,这50%的成本,你躲得过吗?我们被老外牵着鼻子走。
codearts 2005-09-30
  • 打赏
  • 举报
回复
是哦,以后不用utf-8编码,用utf-16来保存汉字还赚!
xmankevin1980xman 2005-09-30
  • 打赏
  • 举报
回复
1000个1的文章占1000个字节,你英文1000个one占3000个字节,中文1000个一占2000个字节,,,那个节省空间??不要告诉我英文是1000个“o”所以。。。。。。。。。。。。。。。。。。。。。。。
XiaoDingDangKM 2005-09-30
  • 打赏
  • 举报
回复
对qczl1224(倾请一世) :我们是两头牛。你朝汉语比英语省空间方向走,我朝同是汉语平均2.x字节比平均3.0字节省空间方向走。呵呵,我也希望全世界使用中文。但,1千年内,不可能(除非...)!我们现在面对的是多语言共存,混合语言表述思想的问题。我提出问题,也提出解决方案。
snowbirdfly 2005-09-30
  • 打赏
  • 举报
回复
总之,一句话支持母语~~~
qczl1224 2005-09-30
  • 打赏
  • 举报
回复
同样网络传输,同样的一份计划书,英文和中文那个更小,

我想看不同的语言谁节省空间不是看“一个字母和一个字比谁占的字节少”
而是看同样的意思谁节省空间:

就和现在:阿拉伯数字“1”,英文“ONE” 中文“ 一”

你自己说安你们的算法就是“1” 和“ o ”是都是占一个字节的,但是你网络上传输1的英文是不是传给0给别人了?就这样算了????????
1000个1的文章占1000个字节,你英文1000个one占3000个字节,中文1000个一占2000个字节,,,那个节省空间??不要告诉我英文是1000个“o”所以。。。。。。。。。。。。。。。。。。。。。。。


UTF-8的模式只是让英文存储节省但是还是没有中文节省。。。。。。。。。。。。。。。你们应该这样理解,,,,
XiaoDingDangKM 2005-09-30
  • 打赏
  • 举报
回复
对 qczl1224(倾请一世):
你用UTF-8要3个字节一个汉字,我用我的方案2.x字节一个汉字。你了解文字编码是怎么一回事没有???
XiaoDingDangKM 2005-09-30
  • 打赏
  • 举报
回复
我再次强调,我不是在比较语言!我是反对UTF-8强加给非语言国家巨大的存储和传输成本!我提出的方案是为我们国家减少那50%的浪费。这是大问题!一种编码方案,如我们拒绝使用它,即使是老美定的也成不了气候。当然我们必须提出并实际使用合理的方案。否则,大家用什么?
qczl1224 2005-09-30
  • 打赏
  • 举报
回复
对 qczl1224(倾请一世):
照你的说法,还研究压缩算法干嘛?Unicode何必变为UTF-8(英语本位主义)?我花100元,你花150元,你钱很多嘛? 对国家来说,是以亿元为单位的浪费!

反驳:我看是你花了200我花了100吧,怎么不会算了你?
ttfy1234 2005-09-30
  • 打赏
  • 举报
回复
反正偶看不懂,怎么就算到用G了呢!
XiaoDingDangKM 2005-09-30
  • 打赏
  • 举报
回复
现在,UTF-8正向网页渗透。不但是存储成本,同样影响信息传输成本。也许此浪费应该用10亿为单位。其影响的是所有非英语国家。影响非英语语言的地位!
加载更多回复(13)

34,590

社区成员

发帖
与我相关
我的任务
社区描述
MS-SQL Server相关内容讨论专区
社区管理员
  • 基础类社区
  • 二月十六
  • 卖水果的net
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧