新手刚学!关于网站爬虫的问题

MYsce 2018-01-12 11:09:39
刚学爬虫,有个网站地址:http://manhua.dmzj.com/mxwbt/458.shtml#@page=1
我要得到这个
列表框的图片连接数据,我用webClient 得到源码 是没有这个标签的,之后用了httpwebRequest 发送请求报文 的到的response的hhttp源码也是没有,最后我发现在客户端计算出来添加到页面的,我用了webbrowser的到了源码的标签了,但是有个问题假如不使用webbrowser能得到这些标签吗?刚学不懂,假如我要使用webbrowser得到页面但是都在ui线程里的话会卡住,假如建立线程Thread把线程设置为sta 但是有时候会报错 访问无效的内存!
假如不使用 webbrowser能得到这个列表框的标签吗?
...全文
452 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
HoKis 2018-01-13
  • 打赏
  • 举报
回复
可以换个思路:找总页数是从哪里来的,再看看列表的链接有无规律。
经测试,总页数和下一张图片地址可以直接从主页面得到,图:
好了, 再看看下拉框的选项有何规律,图:
嗯,总结起来就是:
get 到 码源,解析出总页数,图片地址格式,加上前缀

祝你好运~
  • 打赏
  • 举报
回复

这一块感觉最像
  • 打赏
  • 举报
回复
这是js进行ajax请求后加载的,你在浏览器中F12看到底是哪个页面返回的
MYsce 2018-01-12
  • 打赏
  • 举报
回复
引用 1 楼 xuzuning 的回复:
在客户端计算出来添加到页面的 你也模拟执行他那段 js 代码就是了。 百度不做的你都做,显然你比百度厉害
请问如何模拟呢,请教大神
xuzuning 2018-01-12
  • 打赏
  • 举报
回复
在客户端计算出来添加到页面的 你也模拟执行他那段 js 代码就是了。 百度不做的你都做,显然你比百度厉害
秋的红果实 2018-01-12
  • 打赏
  • 举报
回复
现在有的页面都是按照需要加载内容的,页面拉倒最下面才加载 你要抓取的内容根本没到你的客户机,怎么抓取 不过,只要用心,或许总有办法,这里支持一下 非UI线程里webbrowser出问题,那你为什么不放到UI里面处理呢? 给你推荐个可以替代webbrowser的东西geckofx,比前者好使。具体自己搜索下 ----------------------------------------\0

110,535

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧