100分，求助，C++读取unicode编码文件读取问题，解决着60分，顶着有份

李亚超 2011-04-15 01:54:33

读取unicode方法代码



std::vector<std::wstring>ReadAllLinesByUnicode(std::wstring filePath)

{

	std::vector<std::wstring> list;

	FILE *fp = NULL;

	_wfopen_s(&fp,filePath.c_str() , L"rb,ccs=Unicode");

	wchar_t buf[MAXLINESIZE+1] = {0}; // 假设每一行文本不超过2048字符

    size_t rdCount = fread(buf, 1, 2, fp);

	if (rdCount != 2)

	{

		fclose(fp); 

		return list;

	}

	if (buf[0] != 0xFF || buf[1] != 0xFE) 

	{

        fseek(fp, 0, SEEK_SET); // 测试Unicode文件标志, 没有Unicode头，跳回文件头

    }

	while (!feof(fp))

	{

        if (NULL != fgetws(buf, MAXLINESIZE, fp))

		{

			list.push_back(buf);

		}

    }



    fclose(fp);

	

	return list;

}

调用代码：



        wstring path=L"./data/input.txt";

	wchar_t * str =L"中国";

	vector<wstring> list = ReadAllLinesByUnicode(path);

	for(int i=0;i<list.size();i++)

	{

		//int tmp = dic->InsertEntry(list[i].c_str());

		if(wcscmp(list[i].c_str(), str)==0)

		{

			cout<<"OK\n";

		}

	}

input.txt 以Unicode编码：内容为：
中国
美国
日本
问题为：
1：ReadAllLinesByUnicode(path); 可以返回正确的文本行。
2：为什么不会出现结果“OK”?
3:

...全文

342 15 打赏收藏转发到动态举报

写回复

用AI写文章

15 条回复

切换为时间正序

请发表友善的回复…

发表回复

luciferisnotsatan 2011-04-15

打赏
举报

[Quote=引用 10 楼 harry_lyc 的回复:]

我知道了，因为C++读取的每一行，是以\r\n为结束符的。所以，每一行都包含这两个字符。但是又不会显示，所以一直看不出来，包括调试。
如果，把测试字符加上\r\n或者是，每一行出去后两个字节，则正确显示。
看来，C++很麻烦啊，很多问题需要自己来操心。
[/Quote]
就是这样
遇到这种问题的时候，调试下，看看变量里放的是什么就知道了

yuyan_linger 2011-04-15

打赏
举报



	_wfopen_s(&fp,filePath.c_str() , L"r,ccs=Unicode"); //不用二进制读？

	wchar_t buf[MAXLINESIZE+1] = {0}; // 假设每一行文本不超过2048字符

	size_t rdCount = fread(buf, 1, 2, fp);

	if (rdCount != 2)

	{

		fclose(fp); 

		return list;

	}

	if (buf[0] != 0xFF || buf[1] != 0xFE) 

	{

		fseek(fp, 0, SEEK_SET); // 测试Unicode文件标志, 没有Unicode头，跳回文件头

	}

	fseek(fp, 2, SEEK_SET); //unicode好像会有个文件头

	while (!feof(fp))

	{

		if (NULL != fgetws(buf, MAXLINESIZE, fp))

		{

			char* t = (char*)buf;

			int len = strlen(t);

			t[len-1]=0;

			list.push_back(buf);

		}

	}