- 帖子
- 55
- 主題
- 1
- 精華
- 0
- 積分
- 81
- 點名
- 0
- 作業系統
- win
- 軟體版本
- 10
- 閱讀權限
- 20
- 註冊時間
- 2016-5-15
- 最後登錄
- 2018-11-1
|
154#
發表於 2016-9-20 14:17
| 只看該作者
本帖最後由 koshi0413 於 2016-9-20 14:21 編輯
下面是找到的文章,用 python的可以看一下:
小弟附上的代碼是為了應付這類的,其它的就參考了,看看總沒壞處
http + s://zhuanlan.zhihu.com/p/20520370
0x02 通过Headers反爬虫
从用户请求的Headers反爬虫是最常见的反爬虫策略。很多网站都会对Headers的User-Agent进行检测,
还有一部分网站会对Referer进行检测(一些资源网站的防盗链就是检测Referer)。
如果遇到了这类反爬虫机制,可以直接在爬虫中添加Headers,将浏览器的User-Agent复制到爬虫的Headers中;
或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫,在爬虫中修改或者添加Headers就能很好的绕过。
目前想針對這種的下手:
0x03 基于用户行为反爬虫
还有一部分网站是通过检测用户行为,例如同一IP短时间内多次访问同一页面,或者同一账户短时间内多次进行相同操作。
現在卡在這種@@
0x04 动态页面的反爬虫 |
|