垂直爬虫中是否需要逆向能力？

嘎啦嘛卟镶咔 2019-06-26 10:49:48

事情是从一次爬虫岗位面试开始的。当时说到某东的数据抓取，我说这个平台反扒就是封ip和验证码，最省事办法就是代理ip+打码平台。
但是面试官说不能用打码，需要破解反爬，然后我就有点懵逼了，问了句是要自己破解验证码吗？然后就没下文了。

事后一直疑惑，去咨询了一下，结果被人说是没有一点逆向能力的菜逼。不过我也确实没啥逆向能力。但我还是很疑惑，什么是逆向能力，在垂直爬虫中的实际应用场景是什么样的？所谓逆向并不是识别验证码而是处理代码中加密的部分有事什么意思？

以某东为例，去年写爬虫时确实只遇到了封ip和验证码，代码中也没发现有什么加密，那面试官所谓的反爬又是什么？

我理解的是我的抓取方式类似于强盗式的，属于当着主人面疯狂作案。而面试官想要的是神偷式的，拿了人家数据还让人毫无察觉。不过还是请大神们指点迷津，我这次面试错在哪，如果我想在爬虫方向更进一步需要学习哪些知识。

...全文

3483 21 打赏收藏转发到动态举报

写回复

用AI写文章

21 条回复

切换为时间正序

请发表友善的回复…

发表回复

井蛙不可语于海 2019-07-24

打赏
举报

爬虫涉及到的东西太多了，图像识别，后端接口设计，前端js反爬，app脱壳逆向等等

大佬请带带我 2019-07-04

打赏
举报

也要学习逆向工程，爬虫学后面都是需要逆向的，把JS解开的话爬虫会很稳定的

嘎啦嘛卟镶咔 2019-06-28

打赏
举报

引用 14 楼请叫我派森的回复:

面试的时候应该考察的是求职者学习和解决问题的能力，而不是对方是否会某一技术，显然，这个面试官有点装逼，还有一点现在的情况确实是更偏向于app爬虫了，不会逆向是很难解决问题的，python由于语法简洁，所以是很多人的选择，但是到了app逆向，你不会java是不行的，所以总结来看，技术永远是学不完的，自己要不断的努力，去提升自己

确实，现在越学越恐惧，不会的东西太多，入门时是站在湖边，稍微深入点就感觉看见了大河，再深入点都TM看见海了。。。。。

luoz_python 2019-06-27

打赏
举报

顶一下，看着讨论知道了不少

xfs-coder 2019-06-27

打赏
举报

面试的时候应该考察的是求职者学习和解决问题的能力，而不是对方是否会某一技术，显然，这个面试官有点装逼，还有一点现在的情况确实是更偏向于app爬虫了，不会逆向是很难解决问题的，python由于语法简洁，所以是很多人的选择，但是到了app逆向，你不会java是不行的，所以总结来看，技术永远是学不完的，自己要不断的努力，去提升自己

xking606 2019-06-27

打赏
举报

谢谢，大佬分享的问题

嘎啦嘛卟镶咔 2019-06-27

打赏
举报

引用 15 楼 ZhuCheng Xie 的回复:

估计是你要的待遇，对方给不了？

都没谈待遇

ZhuCheng Xie 2019-06-27

打赏
举报

估计是你要的待遇，对方给不了？

嘎啦嘛卟镶咔 2019-06-26

打赏
举报

引用 3 楼陈年椰子的回复:

也可能对方不是想招人。不想招人，理由多的是。

希望如此是这个原因吧

陈年椰子 2019-06-26

打赏
举报

也可能对方不是想招人。不想招人，理由多的是。

嘎啦嘛卟镶咔 2019-06-26

打赏
举报

引用 1 楼陈年椰子的回复:

破解反爬？逆向能力？

我觉得能爬下数据，花最小成本（时间和金钱），那够了。管他用啥招式呢？

面试官的意思是不是这样：不要打码平台，自己写验证码的模块，比如用opencv 和 selenium 来搞掂滑块验证。

我原本也是这么想的，但是我问了一句是要自己识别验证码吗，然后就game over了。所以搞得我是一脸懵逼，如果面试官想考逆向，我也不是一点都不知道啊，毕竟js加密，token，cookie，app反编译也是搞爬虫经常遇到的，可面试官也没问啊。。。。。郁闷至极

陈年椰子 2019-06-26

打赏
举报

破解反爬？逆向能力？我觉得能爬下数据，花最小成本（时间和金钱），那够了。管他用啥招式呢？面试官的意思是不是这样：不要打码平台，自己写验证码的模块，比如用opencv 和 selenium 来搞掂滑块验证。

考古学家lx(李玺) 2019-06-26

打赏
举报

引用 12 楼 zh619569096 的回复:

[quote=引用 10 楼陈年椰子的回复:] 在python 论坛，很少看到这种讨论了。

其实我是做java爬虫的，不过现在貌似python爬虫是主流，所以只能发到这里来了，毕竟做爬虫主要的是破解方式而不是语言

[/quote] 现在面试官对应聘爬虫岗的要求是各种破壳逆向反编译。python，java，android 还有的要求会php。其实他自己都不懂

嘎啦嘛卟镶咔 2019-06-26

打赏
举报

引用 10 楼陈年椰子的回复:

在python 论坛，很少看到这种讨论了。

其实我是做java爬虫的，不过现在貌似python爬虫是主流，所以只能发到这里来了，毕竟做爬虫主要的是破解方式而不是语言

嘎啦嘛卟镶咔 2019-06-26

打赏
举报

引用 9 楼 --lx 的回复:

[quote=引用 3 楼 zh619569096 的回复:]
[quote=引用 5 楼 --lx 的回复:]
垂直爬虫中是否需要逆向能力？

做爬虫自然要有一些逆向能力阿，要不找到了接口都不晓得怎么用，你需要逆向去找到一些参数的加密方式。

关于这个验证码的问题，正常来说可以借助代码来进行识别，这个很容易学会。当然有的验证码也是可以逆向破解的，去找验证码正确的参数，然后拿到签名，去发送token。

是否有相关参考信息，分析接口及参数只要是做过爬虫的基本都知道，但是你说的这种逆向破解验证码的方式真不知道[/quote]

我现在在做的项目，需要破解微信的二维码验证。只能逆向去破解[/quote]

二维码还真没处理过，我接触的还是图片和滑动验证码居多

陈年椰子 2019-06-26

打赏
举报

在python 论坛，很少看到这种讨论了。

考古学家lx(李玺) 2019-06-26

打赏
举报

引用 3 楼 zh619569096 的回复:

[quote=引用 5 楼 --lx 的回复:] 垂直爬虫中是否需要逆向能力？做爬虫自然要有一些逆向能力阿，要不找到了接口都不晓得怎么用，你需要逆向去找到一些参数的加密方式。关于这个验证码的问题，正常来说可以借助代码来进行识别，这个很容易学会。当然有的验证码也是可以逆向破解的，去找验证码正确的参数，然后拿到签名，去发送token。

是否有相关参考信息，分析接口及参数只要是做过爬虫的基本都知道，但是你说的这种逆向破解验证码的方式真不知道[/quote] 我现在在做的项目，需要破解微信的二维码验证。只能逆向去破解

嘎啦嘛卟镶咔 2019-06-26