当前位置:首页 > 网络安全 > 正文内容

网站常见的反爬虫和应对办法

访客4年前 (2021-04-15)网络安全976

 在咱们的对2019年大数据职业的猜测文章《2019年大数据将走下神坛拥抱日子 本钱喜爱创业时机多》里,咱们从前说到“在2019年,避免网站数据爬取将变成一种生意。”。今日我找到了来自”BSDR“的一篇文章,文章里首要介绍了常见的反爬虫应对办法,下面是正文。

常见的反爬虫

这几天在爬一个网站,网站做了许多反爬虫作业,爬起来有些困难,花了一些时刻才绕过反爬虫。在这儿把我写爬虫以来遇到的各种反爬虫战略和应对的办法总结一下。

从功用上来讲,爬虫一般分为数据收集,处理,贮存三个部分。这儿咱们只谈论数据收集部分。

一般网站从三个方面反爬虫:用户恳求的Headers,用户行为,网站目录和数据加载办法。前两种比较简单遇到,大多数网站都从这些视点来反爬虫。第三种一些运用ajax的网站会选用,这样增大了爬取的难度。

经过Headers反爬虫

从用户恳求的Headers反爬虫是最常见的反爬虫战略。许多网站都会对Headers的User-Agent进行检测,还有一部分网站会对Referer进行检测(一些资源网站的防盗链便是检测Referer)。假如遇到了这类反爬虫机制,可以直接在爬虫中增加Headers,将阅读器的User-Agent复制到爬虫的Headers中;或许将Referer值修正为方针网站域名[谈论:往往简单被疏忽,经过对恳求的抓包剖析,确认referer,在程序中模仿拜访恳求头中增加]。关于检测Headers的反爬虫,在爬虫中修正或许增加Headers就能很好的绕过。

根据用户行为反爬虫

还有一部分网站是经过检测用户行为,例如同一IP短时刻内屡次拜访同一页面,或许同一账户短时刻内屡次进行相同操作。[这种防爬,需求有足够多的ip来应对]

大多数网站都是前一种状况,关于这种状况,运用IP署理就可以处理。可以专门写一个爬虫,爬取网上揭露的署理ip,检测后悉数保存起来。这样的署理ip爬虫常常会用到,最好自己预备一个。有了许多署理ip后可以每恳求几回替换一个ip,这在requests或许urllib2中很简单做到,这样就能很简单的绕过第一种反爬虫。[谈论:动态拨号也是一种处理方案]

关于第二种状况,可以在每次恳求后随机距离几秒再进行下一次恳求。有些有逻辑缝隙的网站,可以经过恳求几回,退出登录,从头登录,持续恳求来绕过同一账号短时刻内不能屡次进行相同恳求的约束。[谈论:关于账户做防爬约束,一般难以应对,随机几秒恳求也往往或许被封,假如能有多个账户,切换运用,作用更佳]

动态页面的反爬虫

上述的几种状况大多都是出现在静态页面,还有一部分网站,咱们需求爬取的数据是经过ajax恳求得到,或许经过Java生成的。首先用Firebug或许HttpFox对网络恳求进行剖析[谈论:感觉google的、IE的网络恳求剖析运用也挺好]。假如可以找到ajax恳求,也能剖析出详细的参数和呼应的详细意义,咱们就能选用上面的办法,直接使用requests或许urllib2模仿ajax恳求,对呼应的json进行剖析得到需求的数据。

可以直接模仿ajax恳求获取数据固然是极好的,可是有些网站把ajax恳求的一切参数悉数加密了。咱们底子没办法结构自己所需求的数据的恳求。我这几天爬的那个网站便是这样,除了加密ajax参数,它还把一些根本的功用都封装了,悉数都是在调用自己的接口,而接口参数都是加密的。遇到这样的网站,咱们就不能用上面的办法了,我用的是selenium+phantomJS结构,调用阅读器内核,并使用phantomJS履行js来模仿人为操作以及触发页面中的js脚本。从填写表单到点击按钮再到翻滚页面,悉数都可以模仿,不考虑详细的恳求和呼应进程,仅仅完完整整的把人阅读页面获取数据的进程模仿一遍。[谈论:支撑phantomJS]

用这套结构简直能绕过大多数的反爬虫,由于它不是在伪装成阅读器来获取数据(上述的经过增加 Headers必定程度上便是为了伪装成阅读器),它本身便是阅读器,phantomJS便是一个没有界面的阅读器,仅仅控制这个阅读器的不是人。使用 selenium+phantomJS精干许多工作,例如辨认点触式(12306)或许滑动式的验证码,对页面表单进行暴力破解等等。它在自动化浸透中还 会大展身手,今后还会说到这个。

扫描二维码推送至手机访问。

版权声明:本文由黑客接单发布,如需转载请注明出处。

本文链接:https://therlest.com/105981.html

分享给朋友:

“网站常见的反爬虫和应对办法” 的相关文章

创业板投资风险揭示书,创业板风险揭示书

保荐机构(主承销商):中泰证券股份有限公司 苏州天路光科技股份有限公司(以下简称“天路科技”、“发行人”或“公司”)首次公开发行不超过2579万股普通股(a股)(以下简称“本次发行”)的申请,已经深圳证券交易所(以下简称“深交所”)创业板上市委员会委员审议通过,并经中国证券监督管理委员会(以下...

尚村最新水貂皮毛价格,丹麦貂皮衣大概多少钱

样子单女款大概貂皮在8000,014-3-24河北尚村蓝狐皮价格,不过价格一般比较高的啊,这个就要看品牌的了,多看看,我要打印IE收藏放入公文包我要留言查看留言文章来源:中国皮草网添加,60公分6000左右,水貂皮大衣最新价格有木有,这个主要看质量了,水貂皮草大衣真假看皮面:如果是真毛。 元/张,5...

宝钢价格行情最新报价,宝钢股份2021年10月钢材价格

宝钢钢材的价格:宝钢3Cr2W8V圆钢,故11、多家钢厂纷纷出台四季度价格调整方案,钢坯出口下降,月份钢材价格走势不容乐观。 要全面考虑下.关于2008年12月宝钢股份碳钢产品钢材价格国内期货销售价格调整的通知发布时间:2008-10-2014:03:06源自-宝钢股份,宝钢每月都公布下月的出厂价格...

Webshell安全检测篇(1)-根据流量的检测方法

一、概述 笔者一直在重视webshell的安全剖析,最近就这段时刻的心得体会和咱们做个共享。 webshell一般有三种检测办法: 依据流量方法 依据agent方法(本质是直接剖析webshell文件) 依据日志剖析方法 Webshell的分类笔者总结如下: 前段时...

53度最便宜酱香郎酒_郎酒经典酱香53度

我一朋友,500多到600多,10年红花郎288,现在估价至少在2000元以上,郎酒老郎酒淡雅2002年出厂,三星,关键是看款型,1992年53-1度酱香型。 郎酒还是1898起步比较好。对了,或者以前的,未来两年必定疯长!不知道怎么上图,现在的价格是158元每瓶便宜,你好。 看目前郎酒的上涨势头,...

二手路虎极光 「2015路虎极光二手车报价」

样子车而已论性能都有点给路2015虎家族丢脸了感觉如果选择这车还真不如选择霸道VX顶配69万那款实惠推荐其他车的话途锐很好Q7虽然多了点但是很值得考虑一下的这个价位如果讨论轿车的话上不了A8L和,公里数等。火烧。 二手车价格:41点00万,2013极光款2点0T AT圣诞限量版,车子没有。 2015...

评论列表

泪灼眼戏
2年前 (2022-07-05)

 在咱们的对2019年大数据职业的猜测文章《2019年大数据将走下神坛拥抱日子 本钱喜爱创业时机多》里,咱们从前说到“在2019年,避免网站数据爬取将变成一种生意。”。今日我找到了来自”BSDR“的一篇文章,文章里首要介绍了常见的反爬虫应对办法,下面是正文。常见的反爬虫这

鸽吻葵袖
2年前 (2022-07-05)

们就能选用上面的办法,直接使用requests或许urllib2模仿ajax恳求,对呼应的json进行剖析得到需求的数据。可以直接模仿ajax恳求获取数据固然是极好的,可

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。