新手刚学！关于网站爬虫的问题

MYsce 2018-01-12 11:09:39

刚学爬虫，有个网站地址：http://manhua.dmzj.com/mxwbt/458.shtml#@page=1
我要得到这个

列表框的图片连接数据，我用webClient 得到源码是没有这个标签的，之后用了httpwebRequest 发送请求报文的到的response的hhttp源码也是没有，最后我发现在客户端计算出来添加到页面的，我用了webbrowser的到了源码的标签了，但是有个问题假如不使用webbrowser能得到这些标签吗？刚学不懂，假如我要使用webbrowser得到页面但是都在ui线程里的话会卡住，假如建立线程Thread把线程设置为sta 但是有时候会报错访问无效的内存！
假如不使用 webbrowser能得到这个列表框的标签吗？

...全文

452 6 打赏收藏转发到动态举报

写回复

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

HoKis 2018-01-13

打赏
举报

回复

可以换个思路：找总页数是从哪里来的，再看看列表的链接有无规律。
经测试，总页数和下一张图片地址可以直接从主页面得到，图：

好了，再看看下拉框的选项有何规律，图：

嗯，总结起来就是：

get 到码源，解析出总页数，图片地址格式，加上前缀

祝你好运~

娃都会打酱油了 2018-01-12

打赏
举报

回复

这一块感觉最像

娃都会打酱油了 2018-01-12

打赏
举报

回复

这是js进行ajax请求后加载的，你在浏览器中F12看到底是哪个页面返回的

MYsce 2018-01-12

打赏
举报

回复

引用 1 楼 xuzuning 的回复:

在客户端计算出来添加到页面的你也模拟执行他那段 js 代码就是了。百度不做的你都做，显然你比百度厉害

请问如何模拟呢，请教大神

xuzuning 2018-01-12

打赏
举报

回复

在客户端计算出来添加到页面的你也模拟执行他那段 js 代码就是了。百度不做的你都做，显然你比百度厉害

秋的红果实 2018-01-12

打赏
举报

回复

现在有的页面都是按照需要加载内容的，页面拉倒最下面才加载你要抓取的内容根本没到你的客户机，怎么抓取不过，只要用心，或许总有办法，这里支持一下非UI线程里webbrowser出问题，那你为什么不放到UI里面处理呢？给你推荐个可以替代webbrowser的东西geckofx，比前者好使。具体自己搜索下 ----------------------------------------\0

本课程讲述爬虫、反爬虫以及应对策略。整个课程以实际案例为主线，由浅入深，既适合新手也适合有一定爬虫经验的开发人员学习和借鉴。课程中使用了http请求库requests和selenium自动化测试框架，也使用了正则、lxml等解析库。网站数据爬取过程中遇到反爬措施不能爬取到需要的数据，这是大家经常遇到的问题。那么本课程主要讲解网站的常用反爬措施以及应对策略，解决数据爬取的痛点。

作为一种常见的网络技术，网络爬虫有很多相关的资源可以帮助新手学习。以下是一些有效的学习路径和资源：

爬虫是大家公认的入门Python最好方式，没有之一。虽然Python有很多应用的方向，但爬虫对于新手小白而言更友好，原理也更简单，几行代码就能实现基本的爬虫，零基础也能快速入门，让新手小白体会更大的成就感。因此小编整理了新手小白必看的Python爬虫学习路线全面指导，希望可以帮到大家。大部分爬虫都是按“发送请求——获得页面——解析页面——抽取并储存内容”这样的流程来进行，这其实也是模拟了我们使用浏览器获取网页信息的过程。

新手小白做python爬虫爬什么网站比较简单？

爬虫是大家公认的入门Python最好方式，没有之一。虽然Python有很多应用的方向，但爬虫对于新手小白而言更友好，原理也更简单，几行代码就能实现基本的爬虫，零基础也能快速入门，让新手小白体会更大的成就感。因此小编整理了新手小白必看的Python爬虫学习路线全面指导，希望可以帮到大家。

110,535

社区成员

642,577

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧

+ 用AI写文章