当前位置:首页 > 网络黑客 > 正文内容

Python爬虫开发(五):反爬虫办法以及爬虫编写注意事项

访客4年前 (2021-04-15)网络黑客590

在关于爬虫技能点的一系列文章完结之后,想到由一个读者在谈论区留言期望了解一下爬虫和反爬虫的内容,在自己预备一番之后,预备就这个问题进行一些介绍,期望能帮到期望了解这一方面的读者。
0×01 介绍
爬虫关于网站具有者来说并不是一个令人高兴的存在,由于爬虫的肆意横行意味着自己的网站材料走漏,乃至是自己故意躲藏在网站的隐私的内容也会走漏。面临这样的情况,作为网站的维护者或许具有者,要么抵挡爬虫,经过各种反爬虫的手法阻挠爬虫,要么依从爬虫,主动供给可供爬虫运用的接口。关于这两种决议计划的正确与否,实践上是有一些考究的,作为一个电商渠道来讲,某种程度上来说仍是期望爬虫在自己网站上作业可是却不期望爬虫的作业影响了渠道的运营,可是这就有一个问题了,也便是前几篇文章中有读者问道的,怎么减轻爬虫形成的丢失。作为搜索引擎来讲,实践上作业在搜索引擎上的爬虫或许是品德缺失的,实践上,搜索引擎作为十分专业的爬虫,爱崇爬虫品德原则,可是不期望自己同类获取自己辛苦搜集的信息,相同这样也便是说,作为搜索引擎来讲,能够说是肯定反爬虫的
0×02 问题的分类
那么,由咱们上面的叙说,关于爬虫的战略也就有:
1.    依从但减轻丢失
2.    爬虫反制
0×03 依从的艺术
或许有人会觉得可笑,为什么要依从?很简略,记住咱们曾经运用的sitemap么?能够说它便是为了爬虫服务,除此之外,咱们还要知道推特的敞开渠道供给了收费的爬虫接口,google也供给了收费的爬虫接口。那么咱们觉得这些墙外的作业离咱们仍是十分的远,那么我就来举一些比如好了,咱们常常网购的朋友都运用京东对吧?或许咱们还不知道京东有自己的敞开渠道,能够供爬虫或许是期望获取京东内商家或许产品信息的开发者:

然后咱们翻开API页面的产品API页面:

咱们发现它供给了不少易用的接口,开发者注册今后能够运用,或许处理一下丢给爬虫去运用。相同的淘宝也有相应的渠道,可是应该是收费的,便是淘宝敞开渠道,要在聚石塔调用API才会收效:


咱们能够看到,假如你期望获取的是京东或许淘宝的信息,怎么办?自己吃力去解析网页并不是一个好方法,再者说,在爬虫开发四中,咱们举的比如便是淘宝的比如,一般的爬虫是没有方法爬到淘宝页面的,这也就从某种程度上解说了为什么百度很难收到淘宝的产品信息什么的,当然不是说百度没有动态爬虫这项技能。
读者会发现,假如咱们要运用这些爬虫,就要恪守商家约好的规矩,注册乃至是付费才干运用。
其实这便是一个本部分讲的一个平衡点,作为一只爬虫,假如想要在某个网站作业,就必须恪守网站的规矩(robots.txt协议,敞开渠道API协议)。
当然假如爬虫制造者觉得不爽,当然能够有其他方法啊,可是价值便是你要针对这个网站写不少爬虫代码,添加自己的开发本钱,也不能说因小失大,仅仅你有了轿车为什么还偏心自行车呢?当然自行车和轿车也是有好坏之分的:顶多也便是竞赛竞速用的自行车和一辆小奥拓的不同吧。
0×04 反爬虫
可是你是真的真的很厌烦爬虫,你恨不得有一万种方法挡住爬虫,那么相同的,有些方法能够起到很好的作用,有些方法或许起不了多大的作用,那么咱们现在就来讲一下反爬虫的几重方法。
1. IP约束
假如是个人编写的爬虫,IP或许是固定的,那么发现某个IP恳求过于频频而且短时间内拜访许多的页面,有爬虫的嫌疑,作为网站的办理或许运维人员,你或许就得想方法制止这个IP地址拜访你的网页了。那么也便是说这个IP宣布的恳求在短时间内不能再拜访你的网页了,也就暂时挡住了爬虫。
2. User-Agent
User-Agent是用户拜访网站时分的浏览器的标识
下面我列出了常见的几种正常的体系的User-Agent咱们能够参阅一下,

而且在实践发作的时分,依据浏览器的不同,还有各种其他的User-Agent,我举几个比如便利咱们了解:
safari 5.1 – MAC
User-Agent:Mozilla/5.0 (Macintosh; U; IntelMac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1Safari/534.50
Firefox 4.0.1 – MAC
User-Agent: Mozilla/5.0 (Macintosh; IntelMac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1
Firefox 4.0.1 – Windows
User-Agent:Mozilla/5.0 (Windows NT 6.1;rv:2.0.1) Gecko/20100101 Firefox/4.0.1
相同的也有许多的合法的User-Agent,只需用户拜访不是正常的User-Agent极有或许是爬虫再拜访,这样你就能够针对用户的User-Agent进行约束了。
3、 验证码反爬虫
这个方法也是适当陈旧而且适当的有作用,假如一个爬虫要解说一个验证码中的内容,这在曾经经过简略的图像识别是能够完结的,可是就现在来讲,验证码的搅扰线,噪点都许多,乃至还呈现了人类都难以知道的验证码(某二三零六)。

[1] [2]  黑客接单网

扫描二维码推送至手机访问。

版权声明:本文由黑客接单发布,如需转载请注明出处。

本文链接:http://therlest.com/105896.html

分享给朋友:

“Python爬虫开发(五):反爬虫办法以及爬虫编写注意事项” 的相关文章

奥运会遭到俄罗斯黑客攻击!黑客攻击微信聊天记录

人民网2021年8月13日02:28:03的消息,黑客攻击微信聊天记录 东京奥运会惨遭俄罗斯黑客攻击! 英国国家网络安全中心日前揭露了一项惊人的黑客计划:俄罗斯军事情报部门曾准备对原定今夏举办的东京奥林匹克运动会和残奥会发起网络攻击。据悉,其攻击目标涵盖赛事组织者、后勤公司和赞助商。 打开百...

【干货知识】高級不断渗透第八季-demo就是远程控制

本季度是《高級不断渗透-第七季demo的发展》的持续。 点一下文尾左下角“阅读”可阅读文章第七季文章正文。 在第一季有关后门中,文章内容提及再次编译程序notepad ,来引入有目标源代码后门结构。 在第六季有关后门中,文章内容假定不在获知notepad 的源代码,来引入无目标源代码沟...

网咖加盟店排行榜(网吧加盟有什么牌子)

杰拉,网咖的话有网鱼、现在年轻人都喜欢看动漫,而网咖可以做到吃喝玩乐于一体,会业务人员跟你联系,连锁加盟要看品牌的影响力和运营能力,其实武汉的网咖还是蛮多的,有直营店。 这是选择加盟模式非常重要的地方,http/wgoldenkccn/网吧showneasp?NewsID=158网吧连锁的管理方案简...

为什么反复烧开的水会有毒?

为什么反复烧开的水会有毒? 千滚水就是在炉上沸腾了一夜或很长时间的水,还有电热水器中反复煮沸的水。这种水因煮过久,水中不挥发性物质,如钙、镁等重金属成分和亚硝酸盐因浓缩后含量很高。久饮这种水,会干扰人的胃肠功能,出现暂时腹泻、腹胀;有毒的亚硝酸盐还会造成机体缺氧,严重者会昏迷惊厥,甚至死亡。 蒸...

苹果笔记本19款air参数_133英寸是多少厘米

Macbook Air厚度分为两个版本,1366x768;CPU型号:Intel酷睿i52467M;CPU主频,2010年10月,Touch Bar位于键盘上方,宽169点5毫米6点6英寸长240毫米。 4款,长240毫米9点4英寸。12寸。 MacBook Air相关尺寸,133扩展:苹果MacB...

如厕阅读-如厕时读书看报有哪些坏处?

如厕阅读-如厕时读书看报有哪些坏处? 读书、看报兼如厕,不少人有这样的习惯。然而这一习惯非常不好。蹲厕时读书看报,会干扰大脑对排便传导神经的指挥,延长排便时间。现代医学研究证实,蹲厕超过3分钟即可直接导致直肠静脉曲张淤血,易诱发痔疮,且病情的轻重与时间长短有关。蹲厕时间越长,发病几率越高。因为久蹲...

评论列表

听弧凉墨
2年前 (2022-07-01)

0100101 Firefox/4.0.1Firefox 4.0.1 – WindowsUser-Agent:Mozilla/5.0 (Windows NT 6.1;rv:2.0.1) Gecko/20100101 Firefox/4.0.1相同的也有许多的合法的User-Ag

只酷俗野
2年前 (2022-07-01)

作业可是却不期望爬虫的作业影响了渠道的运营,可是这就有一个问题了,也便是前几篇文章中有读者问道的,怎么减轻爬虫形成的丢失。作为搜索引擎来讲,实践上作业在搜索引擎上的爬虫或许是品德缺失的,实践上,搜索引擎作为十分专业的爬虫,爱崇爬虫品德原则,可是不期望自己同类获取自己辛苦搜集的信息,相同

北槐树雾
2年前 (2022-07-01)

爬虫的0×02 问题的分类那么,由咱们上面的叙说,关于爬虫的战略也就有:1.    依从但减轻丢失2.    爬虫反制0×03 依从的艺术或许有人会觉得可笑,为什么要依从?很简略,记住咱们曾经运用的sitemap么?能够说它便

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。