CInternetSession读取网页源码乱码问题?

sharp0309 2011-01-04 04:05:30
关于用CInternetSession与CHttpFile获取网页内容乱码的问题

vs2005环境下
在项目属性那里设置 字符集 为 Unicode 编码(不要改字符集)
在获取到页面的源码内容为乱码(其他网页不会出现乱码,只有搜狐出现)
这是我的部分源码,有些UTF-8的经过处理也没有问题,搜狐是GB2312的,是用下面这些代码来获取的,总是会出现乱码!

牛人帮我看看啊!!!(注意只有搜狐出现乱码问题)

CInternetSession session;
CString strBody=_T("");
session.SetOption(INTERNET_OPTION_CONNECT_TIMEOUT,1000*30); //连接超时设置
session.SetOption(INTERNET_OPTION_CONNECT_BACKOFF,1000); //在重试连接之间的等待的延时值在毫秒级
session.SetOption(INTERNET_OPTION_CONNECT_RETRIES,1); CHttpFile* httpfile=NULL;
try
{
httpfile=(CHttpFile*)session.OpenURL(_T("http://news.sohu.com/20101230/n278604307.shtml"),1,INTERNET_FLAG_TRANSFER_ASCII|INTERNET_FLAG_RELOAD,NULL,0);
}
catch(CInternetException* m_pException)
{
httpfile=NULL;
m_pException->Delete();
return _T("");
}
char cBuf[4096]={0};
if(httpfile)
{
while (nBuf = httpfile->Read(cBuf,4095))
{
cBuf[nBuf]=0;
strBody+=cBuf;
}
}
if (httpfile)
{
httpfile->Close();
delete httpfile;
}
}

session.Close();
return strBody;
...全文
606 8 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
8 条回复
切换为时间正序
请发表友善的回复…
发表回复
shibenjie 2011-03-10
  • 打赏
  • 举报
回复
是啊,sohu的就是难产,做了加密
sharp0309 2011-01-05
  • 打赏
  • 举报
回复
怎么都没人来回答哦!!楼上的转换也是不行的!!
sharp0309 2011-01-05
  • 打赏
  • 举报
回复
呵呵,这些都试过了!还是不行的额!
搜狐好像是经过gzip压缩过的!!不知道怎么去解决
Eleven 2011-01-05
  • 打赏
  • 举报
回复
GB2312转Unicode
MultiByteToWideChar(CP_ACP, ...);
oyljerry 2011-01-04
  • 打赏
  • 举报
回复
WideCharToMultiBytes()等API 指定字符集来转换试试呢。
sharp0309 2011-01-04
  • 打赏
  • 举报
回复
GB2312
Eleven 2011-01-04
  • 打赏
  • 举报
回复
网页什么编码?
sharp0309 2011-01-04
  • 打赏
  • 举报
回复
httpfile=(CHttpFile*)session.OpenURL(strlink,1,INTERNET_FLAG_TRANSFER_BINARY|INTERNET_FLAG_RELOAD,NULL,0);也是会出现问题的

18,363

社区成员

发帖
与我相关
我的任务
社区描述
VC/MFC 网络编程
c++c语言开发语言 技术论坛(原bbs)
社区管理员
  • 网络编程
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧