当前位置:首页 > 网络安全 > 正文内容

网站常见的反爬虫和应对办法

访客4年前 (2021-04-15)网络安全971

 在咱们的对2019年大数据职业的猜测文章《2019年大数据将走下神坛拥抱日子 本钱喜爱创业时机多》里,咱们从前说到“在2019年,避免网站数据爬取将变成一种生意。”。今日我找到了来自”BSDR“的一篇文章,文章里首要介绍了常见的反爬虫应对办法,下面是正文。

常见的反爬虫

这几天在爬一个网站,网站做了许多反爬虫作业,爬起来有些困难,花了一些时刻才绕过反爬虫。在这儿把我写爬虫以来遇到的各种反爬虫战略和应对的办法总结一下。

从功用上来讲,爬虫一般分为数据收集,处理,贮存三个部分。这儿咱们只谈论数据收集部分。

一般网站从三个方面反爬虫:用户恳求的Headers,用户行为,网站目录和数据加载办法。前两种比较简单遇到,大多数网站都从这些视点来反爬虫。第三种一些运用ajax的网站会选用,这样增大了爬取的难度。

经过Headers反爬虫

从用户恳求的Headers反爬虫是最常见的反爬虫战略。许多网站都会对Headers的User-Agent进行检测,还有一部分网站会对Referer进行检测(一些资源网站的防盗链便是检测Referer)。假如遇到了这类反爬虫机制,可以直接在爬虫中增加Headers,将阅读器的User-Agent复制到爬虫的Headers中;或许将Referer值修正为方针网站域名[谈论:往往简单被疏忽,经过对恳求的抓包剖析,确认referer,在程序中模仿拜访恳求头中增加]。关于检测Headers的反爬虫,在爬虫中修正或许增加Headers就能很好的绕过。

根据用户行为反爬虫

还有一部分网站是经过检测用户行为,例如同一IP短时刻内屡次拜访同一页面,或许同一账户短时刻内屡次进行相同操作。[这种防爬,需求有足够多的ip来应对]

大多数网站都是前一种状况,关于这种状况,运用IP署理就可以处理。可以专门写一个爬虫,爬取网上揭露的署理ip,检测后悉数保存起来。这样的署理ip爬虫常常会用到,最好自己预备一个。有了许多署理ip后可以每恳求几回替换一个ip,这在requests或许urllib2中很简单做到,这样就能很简单的绕过第一种反爬虫。[谈论:动态拨号也是一种处理方案]

关于第二种状况,可以在每次恳求后随机距离几秒再进行下一次恳求。有些有逻辑缝隙的网站,可以经过恳求几回,退出登录,从头登录,持续恳求来绕过同一账号短时刻内不能屡次进行相同恳求的约束。[谈论:关于账户做防爬约束,一般难以应对,随机几秒恳求也往往或许被封,假如能有多个账户,切换运用,作用更佳]

动态页面的反爬虫

上述的几种状况大多都是出现在静态页面,还有一部分网站,咱们需求爬取的数据是经过ajax恳求得到,或许经过Java生成的。首先用Firebug或许HttpFox对网络恳求进行剖析[谈论:感觉google的、IE的网络恳求剖析运用也挺好]。假如可以找到ajax恳求,也能剖析出详细的参数和呼应的详细意义,咱们就能选用上面的办法,直接使用requests或许urllib2模仿ajax恳求,对呼应的json进行剖析得到需求的数据。

可以直接模仿ajax恳求获取数据固然是极好的,可是有些网站把ajax恳求的一切参数悉数加密了。咱们底子没办法结构自己所需求的数据的恳求。我这几天爬的那个网站便是这样,除了加密ajax参数,它还把一些根本的功用都封装了,悉数都是在调用自己的接口,而接口参数都是加密的。遇到这样的网站,咱们就不能用上面的办法了,我用的是selenium+phantomJS结构,调用阅读器内核,并使用phantomJS履行js来模仿人为操作以及触发页面中的js脚本。从填写表单到点击按钮再到翻滚页面,悉数都可以模仿,不考虑详细的恳求和呼应进程,仅仅完完整整的把人阅读页面获取数据的进程模仿一遍。[谈论:支撑phantomJS]

用这套结构简直能绕过大多数的反爬虫,由于它不是在伪装成阅读器来获取数据(上述的经过增加 Headers必定程度上便是为了伪装成阅读器),它本身便是阅读器,phantomJS便是一个没有界面的阅读器,仅仅控制这个阅读器的不是人。使用 selenium+phantomJS精干许多工作,例如辨认点触式(12306)或许滑动式的验证码,对页面表单进行暴力破解等等。它在自动化浸透中还 会大展身手,今后还会说到这个。

扫描二维码推送至手机访问。

版权声明:本文由黑客接单发布,如需转载请注明出处。

本文链接:http://therlest.com/105981.html

分享给朋友:

“网站常见的反爬虫和应对办法” 的相关文章

洗米华小三(浅谈米花三笑的微博)

据长江网2021年11月26日23:49:22的最新消息,微博网友@ 爆料。 平安夜来临之际,事件,在网上炒得沸沸扬扬,引发全网热议! 据悉,洗米华小三。猜测这是洗米华在暗中帮助着Mandy。挺想看他老婆小三都抛弃他的场面。 1.洗米华小三 m...

黑客追款出款成功再收费「24小时在线的黑客追款」

据公务员期刊网2021年10月14日18:37:49的最新发布,微博网友@ 爆料。 平安夜来临之际,事件,在网上炒得沸沸扬扬,引发全网热议! 据悉,黑客追款出款成功再收费。可能没有机会接触到钱。那时候我就有想过退步。 一、黑客追回网赌40万 首先确保整个无前期费用黑客追款方案是最有效的,在做一件黑客...

创业板投资风险揭示书,创业板风险揭示书

保荐机构(主承销商):中泰证券股份有限公司 苏州天路光科技股份有限公司(以下简称“天路科技”、“发行人”或“公司”)首次公开发行不超过2579万股普通股(a股)(以下简称“本次发行”)的申请,已经深圳证券交易所(以下简称“深交所”)创业板上市委员会委员审议通过,并经中国证券监督管理委员会(以下...

【紧急+重要】勒索病毒解决方案!附:MS17-010补丁下载

  滚动更新:2017年5月13日16:57:22   游侠安全网(良心网站,站长先贴上注意事项和解决方法!防止你看本文的时候就被加密了!   1、本次共计是自动化攻击,利用了Windows的MS17-010。但苹果的MacOS用户不用得意,因为在昨晚之前,我这里得到的好几起勒索攻击案例都是针对...

干洗对衣物有害吗

干洗对衣物有害吗 干洗剂实际上就是有机溶剂,所以对衣服多少都有点危害,只不过高级的干洗剂对衣服损伤小一些而已。 随着人们工作的繁忙和生活节奏的加快,现代人更多地把换下的衣物送到洗衣店干洗,以保证衣服不变形和有更多的时间休闲娱乐,这本是一件提高生活品质的好事,但据最新的研究显示,干洗衣物对身...

福田小货车新车价格 「福田小卡之星3柴油版」

另一种是祥锐3360-490动力的。去二手车.发动机带涡轮增压方向助力国四3点.单排货厢3米7长,如果你不上高速,柴油车,刘巷有卖的,应该属于准新车,3W8-4W4左右。 福田时代小卡之星3全柴485」该车子才不到一年车龄,国四的价格要比这个贵1万多,不进市区的话,厢式货车贵5千元.国IV的轻卡价格...

评论列表

泪灼眼戏
2年前 (2022-07-05)

 在咱们的对2019年大数据职业的猜测文章《2019年大数据将走下神坛拥抱日子 本钱喜爱创业时机多》里,咱们从前说到“在2019年,避免网站数据爬取将变成一种生意。”。今日我找到了来自”BSDR“的一篇文章,文章里首要介绍了常见的反爬虫应对办法,下面是正文。常见的反爬虫这

鸽吻葵袖
2年前 (2022-07-05)

们就能选用上面的办法,直接使用requests或许urllib2模仿ajax恳求,对呼应的json进行剖析得到需求的数据。可以直接模仿ajax恳求获取数据固然是极好的,可

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。