当前位置:首页 > 网络安全 > 正文内容

Python高档爬虫(四):动态加载页面的解决方案与爬虫署理

访客4年前 (2021-04-15)网络安全1122

假如读者读过我前面的关于爬虫的文章,应该大约都清楚咱们现在能够对一个静态的web页面”随心所欲“了,可是技能的开展总是没有止境的,仅仅是这样对静态页面处理远远不够,要知道现在许多的web页面有意无意为了避免静态爬虫运用ajax技能动态加载页面,这就导致了在面临这些网站的时分,咱们前面的技能并不能起到什么很好的作用,所以,我在本系列文章最初就说了会供给动态加载网页的处理计划,在这篇文章里,笔者就在这儿提出这个处理计划,用来处理曾经咱们没有办法的问题。
0×01 动态页面处理计划Selenium+PhantomJS
Python2(或Python3)      本文运用Python2.7.11
Selenium                            自动化web测验处理计划
PhantomJS                         一个没有图形界面的浏览器
0×02 原理回忆比照

评论:讲selenium自动化测验技能运用于爬虫数据发掘,其实我也是阅历了一段时刻的考虑,有一些根底的朋友们可能会知道,BeautifulSoup这种彻底根据静态的web页面剖析是没有办法履行JS的,可是咱们在运用web的进程中,根本不行能不用到JS脚本,其时我就想寻觅一个JS引擎整合BeautifulSoup,然后计划运用Spidermonkey这个技能,假如需求这么做的话,咱们会发现,咱们不只要用BeautifulSoup爬取页面的方针元素,并且还要考虑爬取JS脚本,在履行这些js脚本后,咱们还需求再次剖析这些脚本回来的数据或许是对HTML页面发生的影响,我觉得这样加大了太多的不确定要素,咱们不想花太多的时刻放在脚本编写上,已然选用Python,就要发挥它的巨大Pythonic的优势。然后还有一个处理计划便是Ghost.py,github主页。我想或许咱们经过这个计划介绍的不只仅是爬虫,也可能是一个新世界的大门,所以我仍是挑选selenium吧,web自动化测验的一整套处理计划。
其实咱们从BeautifulSoup的处理计划过度到selenium的计划便是一个思想上的“让步“的进程,从直接HTML解析->剖析JS->webkit->干脆直接用headless浏览器来操作web页面的selenium。
所以也便是说,咱们接下来要评论的selenium用于爬虫和曾经学习的静态页面处理有着实质的差异,能够以为对咱们来说是一个全新的技能。
0×03 Quick Start
在这儿咱们首要能够很负责任的说,经过以下的比如并不会让读者彻底把握selenium的运用,可是经过着手,咱们能够了解到selenium对错常好用并且并不输于BeautifulSoup的(或许这两个并不是一个等级并不能比较)。可是能够说BeautifulSoup中的定位元素,在selenium中都能够做到,并且Selenium能够设置等候时刻让页面完结加载,或许设置条件让web页面加载出咱们所需求的数据然后再获取数据。
下载与装置:
首要咱们需求下载要给PhantomJS浏览器from官网。
然后装置selenium,运用easy_install或许pip都能够很便利的装置:
1.easy_install selenium
2.pip install selenium
然后咱们的第一个方针页面http://pythonscraping.com/pages/javascript/ajaxDemo.html很简略,便是一个存在ajax的状况:页面如下:
html>
head>
title>Some JavaScript-loaded contenttitle>
script src="../js/jquery-2.1.1.min.js">script>
 
head>
body>
div id="content">
This is some content that will appear on the page while it's loading. You don't care about scraping this.
div>
 
script>
$.ajax({
    type: "GET",
    url: "loadedContent.php",
    success: function(response){
 
        setTimeout(function() {
            $('#content').html(response);
        }, 2000);
    }
  });
 
function ajax_delay(str){
 setTimeout("str",2000);
}
script>
body>
html>
咱们简略看到这个web页面是运用ajax动态加载数据,GET恳求LoadedContent.php然后把成果直接显现在content里。关于这样的办法咱们并不需求太深化了解,总归咱们只需求知道咱们假如运用传统的办法获取,得到的便是上面的静态html而没有loadedContent.php中的内容。
作为selenium的爬虫运用quickstart,咱们没必要太深化解说原理,咱们需求把PhantomJS和python脚本放在同一个文件夹下,树立selenium_test.py文件夹

然后输入selenium_test.py中的内容:
#引进selenium中的webdriver
from selenium import webdriver
import time
#webdriver中的PhantomJS办法能够翻开一个咱们下载的静默浏览器。
#输入executable_path为当时文件夹下的phantomjs.exe以发动浏览器
driver =webdriver.PhantomJS(executable_path="phantomjs.exe")
 
#运用浏览器恳求页面
driver.get("http://pythonscraping.com/pages/javascript/ajaxDemo.html")
#加载3秒,等候一切数据加载结束
time.sleep(3)

[1] [2]  黑客接单网

扫描二维码推送至手机访问。

版权声明:本文由黑客接单发布,如需转载请注明出处。

本文链接:http://therlest.com/106625.html

分享给朋友:

“Python高档爬虫(四):动态加载页面的解决方案与爬虫署理” 的相关文章

洗米华小三(浅谈米花三笑的微博)

据长江网2021年11月26日23:49:22的最新消息,微博网友@ 爆料。 平安夜来临之际,事件,在网上炒得沸沸扬扬,引发全网热议! 据悉,洗米华小三。猜测这是洗米华在暗中帮助着Mandy。挺想看他老婆小三都抛弃他的场面。 1.洗米华小三 m...

创业板投资风险揭示书,创业板风险揭示书

保荐机构(主承销商):中泰证券股份有限公司 苏州天路光科技股份有限公司(以下简称“天路科技”、“发行人”或“公司”)首次公开发行不超过2579万股普通股(a股)(以下简称“本次发行”)的申请,已经深圳证券交易所(以下简称“深交所”)创业板上市委员会委员审议通过,并经中国证券监督管理委员会(以下...

干洗对衣物有害吗

干洗对衣物有害吗 干洗剂实际上就是有机溶剂,所以对衣服多少都有点危害,只不过高级的干洗剂对衣服损伤小一些而已。 随着人们工作的繁忙和生活节奏的加快,现代人更多地把换下的衣物送到洗衣店干洗,以保证衣服不变形和有更多的时间休闲娱乐,这本是一件提高生活品质的好事,但据最新的研究显示,干洗衣物对身...

材质好的膜结构(选择好的膜结构)

具有阻燃和耐高温性能保温性能,门前都有一种跟伞一样的膜结构建筑。为了解决PVC膜结构材料的自洁性问题,防火性与PTFE相比具有一定差距,基布主要采用聚酯纤维和玻璃纤维材料,PVC,聚酰胺类的纤维织物。主要取决于其独特的形态及膜材本身的性能。 在荷载作用下膜结构看台施工的变形较大,恰由于此,有很强的吸...

宝马528(宝马5系528li报价)

系最终决定选择宝马528.新款BMW,528领先,4400元,另外附525豪华,型57点66万,后驱:525豪华,车型宝马指导售价车型售价报价。 高保真扬声器。小屏、厂家指导价,相差27马力,多功能方向盘电动调节带巡航+换挡拨片、8速变速箱。 jnsdxx2016-2-2323:10:35发表在23...

上海南京东路站街伴游2019-【杨雅瑄】

“上海南京东路站街伴游2019-【杨雅瑄】” 上海伴游陪游旅行网顾建军,上海伴游网顾建军的详细资料一:找真实的经纪人龙家住广州天河区的王先生最近咨询小编问 广州如何学生伴游 ,怎么能获得他们联系方式大家可以先通过百,104,广州学生伴游联系方式,广州商务伴游预约,家住广州天河区的王先生最近咨询小编问...

评论列表

辞眸鹿鸢
3年前 (2022-07-04)

xecutable_path="phantomjs.exe") #运用浏览器恳求页面driver.get("http://pythonscraping.com/pages/javas

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。