爬虫反爬与反爬破解总结

前言

这里将自己收集的,遇到的反爬机制进行简单的记录和简单的分析,如果有大佬路过,看到理解不正确的地方,希望可以指出来,学习进步,在此感激不尽。

正文

最基础的记录一下标题

1.header反爬

抓包copy一份,header字典赋值,requests传入,简单破解。

2.浏览器绑定

之前爬一个免费ip代理的网站的时候,很好玩,感觉是把一个浏览器的所有http请求头数据进行处理,然后形成了一个cookie,并且不仅仅是判断cookie,而且再次判断http请求头内容。

这个是打开fiddler抓包的时候,发现的,copy了所有的http头才有数据。

3.限制某一时间访问次数

在爬csdn的时候,发现在请求10次~18次的时候,会发生请求中断,未响应等情况,怀疑是做了一定的限制。

开pool线程池,开50个,之前面试的时候,组长教的,开多线程,让服务器反应不过来,这个时候数据就已经全部提取出来了。

相关推荐
©️2020 CSDN 皮肤主题: 程序猿惹谁了 设计师:白松林 返回首页