当前位置:首页 > 网络黑客 > 正文内容

Python爬虫开发(五):反爬虫办法以及爬虫编写注意事项

访客4年前 (2021-04-15)网络黑客597

在关于爬虫技能点的一系列文章完结之后,想到由一个读者在谈论区留言期望了解一下爬虫和反爬虫的内容,在自己预备一番之后,预备就这个问题进行一些介绍,期望能帮到期望了解这一方面的读者。
0×01 介绍
爬虫关于网站具有者来说并不是一个令人高兴的存在,由于爬虫的肆意横行意味着自己的网站材料走漏,乃至是自己故意躲藏在网站的隐私的内容也会走漏。面临这样的情况,作为网站的维护者或许具有者,要么抵挡爬虫,经过各种反爬虫的手法阻挠爬虫,要么依从爬虫,主动供给可供爬虫运用的接口。关于这两种决议计划的正确与否,实践上是有一些考究的,作为一个电商渠道来讲,某种程度上来说仍是期望爬虫在自己网站上作业可是却不期望爬虫的作业影响了渠道的运营,可是这就有一个问题了,也便是前几篇文章中有读者问道的,怎么减轻爬虫形成的丢失。作为搜索引擎来讲,实践上作业在搜索引擎上的爬虫或许是品德缺失的,实践上,搜索引擎作为十分专业的爬虫,爱崇爬虫品德原则,可是不期望自己同类获取自己辛苦搜集的信息,相同这样也便是说,作为搜索引擎来讲,能够说是肯定反爬虫的
0×02 问题的分类
那么,由咱们上面的叙说,关于爬虫的战略也就有:
1.    依从但减轻丢失
2.    爬虫反制
0×03 依从的艺术
或许有人会觉得可笑,为什么要依从?很简略,记住咱们曾经运用的sitemap么?能够说它便是为了爬虫服务,除此之外,咱们还要知道推特的敞开渠道供给了收费的爬虫接口,google也供给了收费的爬虫接口。那么咱们觉得这些墙外的作业离咱们仍是十分的远,那么我就来举一些比如好了,咱们常常网购的朋友都运用京东对吧?或许咱们还不知道京东有自己的敞开渠道,能够供爬虫或许是期望获取京东内商家或许产品信息的开发者:

然后咱们翻开API页面的产品API页面:

咱们发现它供给了不少易用的接口,开发者注册今后能够运用,或许处理一下丢给爬虫去运用。相同的淘宝也有相应的渠道,可是应该是收费的,便是淘宝敞开渠道,要在聚石塔调用API才会收效:


咱们能够看到,假如你期望获取的是京东或许淘宝的信息,怎么办?自己吃力去解析网页并不是一个好方法,再者说,在爬虫开发四中,咱们举的比如便是淘宝的比如,一般的爬虫是没有方法爬到淘宝页面的,这也就从某种程度上解说了为什么百度很难收到淘宝的产品信息什么的,当然不是说百度没有动态爬虫这项技能。
读者会发现,假如咱们要运用这些爬虫,就要恪守商家约好的规矩,注册乃至是付费才干运用。
其实这便是一个本部分讲的一个平衡点,作为一只爬虫,假如想要在某个网站作业,就必须恪守网站的规矩(robots.txt协议,敞开渠道API协议)。
当然假如爬虫制造者觉得不爽,当然能够有其他方法啊,可是价值便是你要针对这个网站写不少爬虫代码,添加自己的开发本钱,也不能说因小失大,仅仅你有了轿车为什么还偏心自行车呢?当然自行车和轿车也是有好坏之分的:顶多也便是竞赛竞速用的自行车和一辆小奥拓的不同吧。
0×04 反爬虫
可是你是真的真的很厌烦爬虫,你恨不得有一万种方法挡住爬虫,那么相同的,有些方法能够起到很好的作用,有些方法或许起不了多大的作用,那么咱们现在就来讲一下反爬虫的几重方法。
1. IP约束
假如是个人编写的爬虫,IP或许是固定的,那么发现某个IP恳求过于频频而且短时间内拜访许多的页面,有爬虫的嫌疑,作为网站的办理或许运维人员,你或许就得想方法制止这个IP地址拜访你的网页了。那么也便是说这个IP宣布的恳求在短时间内不能再拜访你的网页了,也就暂时挡住了爬虫。
2. User-Agent
User-Agent是用户拜访网站时分的浏览器的标识
下面我列出了常见的几种正常的体系的User-Agent咱们能够参阅一下,

而且在实践发作的时分,依据浏览器的不同,还有各种其他的User-Agent,我举几个比如便利咱们了解:
safari 5.1 – MAC
User-Agent:Mozilla/5.0 (Macintosh; U; IntelMac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1Safari/534.50
Firefox 4.0.1 – MAC
User-Agent: Mozilla/5.0 (Macintosh; IntelMac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1
Firefox 4.0.1 – Windows
User-Agent:Mozilla/5.0 (Windows NT 6.1;rv:2.0.1) Gecko/20100101 Firefox/4.0.1
相同的也有许多的合法的User-Agent,只需用户拜访不是正常的User-Agent极有或许是爬虫再拜访,这样你就能够针对用户的User-Agent进行约束了。
3、 验证码反爬虫
这个方法也是适当陈旧而且适当的有作用,假如一个爬虫要解说一个验证码中的内容,这在曾经经过简略的图像识别是能够完结的,可是就现在来讲,验证码的搅扰线,噪点都许多,乃至还呈现了人类都难以知道的验证码(某二三零六)。

[1] [2]  黑客接单网

扫描二维码推送至手机访问。

版权声明:本文由黑客接单发布,如需转载请注明出处。

本文链接:https://therlest.com/105896.html

分享给朋友:

“Python爬虫开发(五):反爬虫办法以及爬虫编写注意事项” 的相关文章

奥运会遭到俄罗斯黑客攻击!黑客攻击微信聊天记录

人民网2021年8月13日02:28:03的消息,黑客攻击微信聊天记录 东京奥运会惨遭俄罗斯黑客攻击! 英国国家网络安全中心日前揭露了一项惊人的黑客计划:俄罗斯军事情报部门曾准备对原定今夏举办的东京奥林匹克运动会和残奥会发起网络攻击。据悉,其攻击目标涵盖赛事组织者、后勤公司和赞助商。 打开百...

我老公老是让他家的亲戚来我家,我该怎么办?请各位帮我想想办法,我

我老公老是让他家的亲戚来我家,我该怎么办?请各位帮我想想办法,我 请各位帮我想想办法,开网店怎么找女装货源唔爱神起助您成就财富人生,想做微商?想开实体店?想开淘宝店?什么才是你创业的最重要步骤?货源!想在微商卖童装母婴用品纸尿裤女装,开童装女装店铺,你去哪里找最好的货源?如何找童装女装一手货源呢?...

如厕阅读-如厕时读书看报有哪些坏处?

如厕阅读-如厕时读书看报有哪些坏处? 读书、看报兼如厕,不少人有这样的习惯。然而这一习惯非常不好。蹲厕时读书看报,会干扰大脑对排便传导神经的指挥,延长排便时间。现代医学研究证实,蹲厕超过3分钟即可直接导致直肠静脉曲张淤血,易诱发痔疮,且病情的轻重与时间长短有关。蹲厕时间越长,发病几率越高。因为久蹲...

怎样辨别有农药残留的蔬菜?

怎样辨别有农药残留的蔬菜? 一、不吃形状、颜色异常的蔬菜: 形状:颜色正常的蔬菜,一般是常规栽培,是未用激素等化学品处理的,可以放心地食用。 “异常”蔬菜可能用激素处理过,如韭菜,当它的叶子特别宽大肥厚,比一般宽叶一次同学聚会,我发现很多同学已经有房有车,毕竟毕业三年了,而我还只是每个月三千块...

崔鹏(足球)个人资料简介(简历及图片)

崔鹏(足球)人物概况 本页面提供了崔鹏(足球)个人资料简介(简历及图片),崔鹏(足球)是谁?崔鹏(足球)个人简介资料完整设计了网页求职找工作编辑个人简历作品所需要的崔鹏(足球)网站常用模板元素,不保证崔鹏(足球)人物数据真实,任何问题请联系管理员调整。 崔鹏(足球)图片 崔鹏(足球)个人资料简...

不锈钢水箱制作厂家(小型家用储水箱不锈钢

福瑞达不锈钢水箱厂,产品外形美观,不锈钢水箱按用途可以分为生活水箱和,采用进口食品级304不锈钢材料制作而成,农村,宝汇不锈钢水箱,比较满意,金诚铭不锈钢水箱,比较满意,现在对生活水箱不是很清楚的了解. 有很多的水箱,安装快,含镍量、生产基地位于江西省南昌英雄城。1-9000T水箱都能定做。 此类水...

评论列表

听弧凉墨
2年前 (2022-07-01)

0100101 Firefox/4.0.1Firefox 4.0.1 – WindowsUser-Agent:Mozilla/5.0 (Windows NT 6.1;rv:2.0.1) Gecko/20100101 Firefox/4.0.1相同的也有许多的合法的User-Ag

只酷俗野
2年前 (2022-07-01)

作业可是却不期望爬虫的作业影响了渠道的运营,可是这就有一个问题了,也便是前几篇文章中有读者问道的,怎么减轻爬虫形成的丢失。作为搜索引擎来讲,实践上作业在搜索引擎上的爬虫或许是品德缺失的,实践上,搜索引擎作为十分专业的爬虫,爱崇爬虫品德原则,可是不期望自己同类获取自己辛苦搜集的信息,相同

北槐树雾
2年前 (2022-07-01)

爬虫的0×02 问题的分类那么,由咱们上面的叙说,关于爬虫的战略也就有:1.    依从但减轻丢失2.    爬虫反制0×03 依从的艺术或许有人会觉得可笑,为什么要依从?很简略,记住咱们曾经运用的sitemap么?能够说它便

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。