多线程下载网页

ttcode 2011-12-31 03:58:54
1:自己写了一个socket抓取页面,有些网站抓回来的数据是压缩之后的,得通过自己去判断,然后解压。可是有一些网站下回来直接是源码,没有任何压缩的,不晓得为什么 同样是请求gzip

2:考虑之后选择用libcurl下载,发送在多线程下,好大一部分网站下回来是空的,response_code为0

3:求推荐一些第三方的引擎,可以跨平台使用,主要是想实现一个完成的http 页面抓取,麻烦各位了
...全文
93 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
ttcode 2011-12-31
  • 打赏
  • 举报
回复
补充一点 有人会推荐用CinternetSession这个无法实现跨平台,我虽然用了 由于需求是跨平台 所以没办法使用
ttcode 2011-12-31
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 wodeprogrammer 的回复:]

看回应里的编码方式,如果是gzip就明说是压缩的。
[/Quote]

回应是gzip结果内容却不是压缩之后的

还有也时根本没出现gzip,而是出现chunked

wodeprogrammer 2011-12-31
  • 打赏
  • 举报
回复
看回应里的编码方式,如果是gzip就明说是压缩的。

64,676

社区成员

发帖
与我相关
我的任务
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++ 技术论坛(原bbs)
社区管理员
  • C++ 语言社区
  • encoderlee
  • paschen
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  1. 请不要发布与C++技术无关的贴子
  2. 请不要发布与技术无关的招聘、广告的帖子
  3. 请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧