文件名的字符编码和c的fopen函数问题

flm8620 2013-07-06 06:31:38
问一个问题,文件名的存储和文件名的显示应该是两回事吧
中文版windows的环境字符集是GBK
GBK中“茅”的编码是 195 169(十进制)
如果我在中文版windows里看到个文件叫“a茅”
那么他的文件名在硬盘中的存储方式应该是97 195 169
我编了个c程序如下:
FILE *fp;
char b[100]={'a',195,169,0};
strcat(b,".html");
if((fp=fopen(b,"w+"))!=NULL)printf("created!");
成功创建了一个“a茅.html”

问题来了
如果在英文版操作系统中创建了一个“aé.html”
é在ISO-8559各编码下都是233(十六进制:E9)
那么这个文件名的存储方式应该是97 233 等等等
如果我把这个文件拷进我的电脑 那么在GBK字符集下显示的应该是乱码: a?.html

那我就想 如果我用c创建同样一个文件,虽然GBK显示不了233,但是存储的东西应该不会

变啊
程序如下:
FILE *fp;
char b[100]={'a',233,0};
strcat(b,".html");
if((fp=fopen(b,"w+"))!=NULL){
printf("created!");}
结果没有创建成功。
没道理啊,这个程序在执行的时候,告诉操作系统要创建文件,传输给操作系统文件名,

这个过程应该是与字符集没有关系的啊,一切都是二进制的,系统照做就是了,哪管这个

文件名会显示成什么样子。
那为什么不成功呢?
...全文
474 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
图灵狗 2013-07-06
  • 打赏
  • 举报
回复
编码最好保持一致,操作系统本身可能会有些本地化的行为。
flm8620 2013-07-06
  • 打赏
  • 举报
回复
谢谢回答,再追问楼上两个问题 1文件名的合法性是与字符集相关的么? 如果我吧一个在英文系统下创建的aé.html拷入我的中文系统,虽然é显示的是问号,但是打开和保存应该是没问题的吧 2对于解压一个包含aé.html的压缩包(此压缩包是在英文系统上创建),我在压缩软件里选了编码方式为UTF-8,解压后得到的aé.html而不是a?.html。就是说压缩软件以UTF-8的编码方式去读取文件名,然后把文件名转换成了GBK编码方式。 但是如果选了编码方式为GBK进行解压,é就会被转换成一个莫名其妙的汉字。 怎样能得到原始的aé.html,即使在我的系统上显示为a?.html。因为我需要在程序中用utf-8编码读取包含西欧字符的文件名。 我问这个问题实际上是想改动一个法英字典文件的内容 这个字典文件是kobo电子书里面的一个zip压缩包,里面是许多html文件,文件名为单词的开头两个字符 例如这个aé.html存储着所有aé打头的法语单词的英文释义。 我想编个小程序批量的将英文释义改成中文的,我有法汉字典数据 kobo要求字典文本的编码为UTF-8,我法汉字典数据的编码也是UTF-8 我从法汉字典数据里读取出每个单词的头两个字母,并且以此去寻找对应的html(例如aé.html)
FancyMouse 2013-07-06
  • 打赏
  • 举报
回复
既然os知道字符集,它检测个文件名合法性也不是啥难题吧。检测出来拒绝创建这个文件也挺合理的。

3,881

社区成员

发帖
与我相关
我的任务
社区描述
C/C++ 其它技术问题
社区管理员
  • 其它技术问题社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧