当前位置：首页 > 网络安全 > 正文内容

Python爬虫开发（四）：动态加载页面的解决方案与爬虫署理

访客4年前 (2021-04-15)网络安全963

假如读者读过我前面的关于爬虫的文章，应该大约都清楚咱们现在能够对一个静态的web页面”随心所欲“了，可是技能的开展总是没有止境的，仅仅是这样对静态页面处理远远不够，要知道现在许多的web页面有意无意为了避免静态爬虫运用ajax技能动态加载页面，这就导致了在面临这些网站的时分，咱们前面的技能并不能起到什么很好的作用，所以，我在本系列文章最初就说了会供给动态加载网页的处理计划，在这篇文章里，笔者就在这儿提出这个处理计划，用来处理曾经咱们没有办法的问题。
0×01 动态页面处理计划Selenium+PhantomJS
Python2（或Python3）      本文运用Python2.7.11
Selenium                            自动化web测验处理计划
PhantomJS                         一个没有图形界面的浏览器
0×02 原理回忆比照

评论:讲selenium自动化测验技能运用于爬虫数据发掘，其实我也是阅历了一段时刻的考虑，有一些根底的朋友们可能会知道，BeautifulSoup这种彻底根据静态的web页面剖析是没有办法履行JS的，可是咱们在运用web的进程中，根本不行能不用到JS脚本，其时我就想寻觅一个JS引擎整合BeautifulSoup，然后计划运用Spidermonkey这个技能，假如需求这么做的话，咱们会发现，咱们不只要用BeautifulSoup爬取页面的方针元素，并且还要考虑爬取JS脚本，在履行这些js脚本后，咱们还需求再次剖析这些脚本回来的数据或许是对HTML页面发生的影响，我觉得这样加大了太多的不确定要素，咱们不想花太多的时刻放在脚本编写上，已然选用Python，就要发挥它的巨大Pythonic的优势。然后还有一个处理计划便是Ghost.py,github主页。我想或许咱们经过这个计划介绍的不只仅是爬虫，也可能是一个新世界的大门，所以我仍是挑选selenium吧，web自动化测验的一整套处理计划。
其实咱们从BeautifulSoup的处理计划过度到selenium的计划便是一个思想上的“让步“的进程，从直接HTML解析->剖析JS->webkit->干脆直接用headless浏览器来操作web页面的selenium。
所以也便是说，咱们接下来要评论的selenium用于爬虫和曾经学习的静态页面处理有着实质的差异，能够以为对咱们来说是一个全新的技能。
0×03 Quick Start
在这儿咱们首要能够很负责任的说，经过以下的比如并不会让读者彻底把握selenium的运用，可是经过着手，咱们能够了解到selenium对错常好用并且并不输于BeautifulSoup的(或许这两个并不是一个等级并不能比较)。可是能够说BeautifulSoup中的定位元素，在selenium中都能够做到，并且Selenium能够设置等候时刻让页面完结加载，或许设置条件让web页面加载出咱们所需求的数据然后再获取数据。
下载与装置：
首要咱们需求下载要给PhantomJS浏览器from官网。
然后装置selenium，运用easy_install或许pip都能够很便利的装置：
1.easy_install selenium
2.pip install selenium
然后咱们的第一个方针页面http://pythonscraping.com/pages/javascript/ajaxDemo.html很简略，便是一个存在ajax的状况：页面如下：
html>
head>
title>Some JavaScript-loaded contenttitle>
script src="../js/jquery-2.1.1.min.js">script>

head>
body>
div id="content">
This is some content that will appear on the page while it's loading. You don't care about scraping this.
div>

script>
$.ajax({
    type: "GET",
    url: "loadedContent.php",
    success: function(response){

        setTimeout(function() {
            $('#content').html(response);
        }, 2000);
    }
});

function ajax_delay(str){
setTimeout("str",2000);
}
script>
body>
html>
咱们简略看到这个web页面是运用ajax动态加载数据，GET恳求LoadedContent.php然后把成果直接显现在content里。关于这样的办法咱们并不需求太深化了解，总归咱们只需求知道咱们假如运用传统的办法获取，得到的便是上面的静态html而没有loadedContent.php中的内容。
作为selenium的爬虫运用quickstart，咱们没必要太深化解说原理，咱们需求把PhantomJS和python脚本放在同一个文件夹下，树立selenium_test.py文件夹

然后输入selenium_test.py中的内容：
#引进selenium中的webdriver
from selenium import webdriver
import time
#webdriver中的PhantomJS办法能够翻开一个咱们下载的静默浏览器。
#输入executable_path为当时文件夹下的phantomjs.exe以发动浏览器
driver =webdriver.PhantomJS(executable_path="phantomjs.exe")

#运用浏览器恳求页面
driver.get("http://pythonscraping.com/pages/javascript/ajaxDemo.html")
#加载3秒，等候一切数据加载结束
time.sleep(3)

[1] [2] 黑客接单网

扫描二维码推送至手机访问。

本文链接：https://therlest.com/105853.html

分享给朋友：

返回列表

上一篇：黑客信息网：ATT&CK框架详解

下一篇：微信恢复聊天记录的软件(微信聊天记录查看软件)

“Python爬虫开发（四）：动态加载页面的解决方案与爬虫署理” 的相关文章

创业板投资风险揭示书,创业板风险揭示书

保荐机构(主承销商):中泰证券股份有限公司苏州天路光科技股份有限公司(以下简称“天路科技”、“发行人”或“公司”)首次公开发行不超过2579万股普通股(a股)(以下简称“本次发行”)的申请，已经深圳证券交易所(以下简称“深交所”)创业板上市委员会委员审议通过，并经中国证券监督管理委员会(以下...

【紧急+重要】勒索病毒解决方案！附：MS17-010补丁下载

　　滚动更新：2017年5月13日16:57:22 　　游侠安全网（良心网站，站长先贴上注意事项和解决方法！防止你看本文的时候就被加密了！　　1、本次共计是自动化攻击，利用了Windows的MS17-010。但苹果的MacOS用户不用得意，因为在昨晚之前，我这里得到的好几起勒索攻击案例都是针对...

Webshell安全检测篇（1）-根据流量的检测方法

一、概述笔者一直在重视webshell的安全剖析，最近就这段时刻的心得体会和咱们做个共享。 webshell一般有三种检测办法：依据流量方法依据agent方法（本质是直接剖析webshell文件）依据日志剖析方法 Webshell的分类笔者总结如下：前段时...

黄埔燃料油现货价格_今日燃料油市场价格

这句话是指期货比现货价格高100元吗，柴油，1%的权重都没有，通过技术指标和消息面影响来分析的。有的有点差，点88 国际燃料油收盘价涨跌新加坡。244点5 国内燃料油，燃料油，作为成品油的一种，屈居第二位，有的高点有的低一点，2。97#汽油5点38元/价格升，在原油的加工过程中，常关注的消息为OPE...

记一次阿里云主机accesskey泄露到图形化工具开发

简介在日常渗透过程中我们经常遇到信息泄露出ALIYUN_ACCESSKEYID与ALIYUN_ACCESSKEYSECRET（阿里云API key），特别是laravel框架得debug信息。APP中也会泄露这些信息。！！！下载链接在文末！！！概述我们说下阿里API有什么用吧，以下是...

600斤蓝鳍金枪鱼价钱，中国蓝鳍金枪鱼分布

眼不大，上身躯则是深蓝色，因此它们作为分开的种群金枪鱼来进行管理。零下60度的是380元每公斤。发布：股城消费在生活中很多人都吃过金枪鱼，美容减肥的好食物，价格不同！油脂较少。加拿大12岁女童詹娜钓上一条616磅，小鳍则是呈现微黄色。，蓝鳍金枪鱼是金枪鱼类中最大型的鱼种。大西洋和太平洋蓝鳍金枪鱼三...

评论列表

鸽吻辜屿

3年前 (2022-07-03)

用quickstart，咱们没必要太深化解说原理，咱们需求把PhantomJS和python脚本放在同一个文件夹下，树立selenium_test.py文件夹然后输入selenium_test.py中的内容：#引进selenium中的webdriverfr

回复该评论

发表评论

« 2025年4月 »
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

文章归档

黑客24小时在线接单的网站

Python爬虫开发（四）：动态加载页面的解决方案与爬虫署理

“Python爬虫开发（四）：动态加载页面的解决方案与爬虫署理” 的相关文章

创业板投资风险揭示书,创业板风险揭示书

【紧急+重要】勒索病毒解决方案！附：MS17-010补丁下载

Webshell安全检测篇（1）-根据流量的检测方法

黄埔燃料油现货价格_今日燃料油市场价格

记一次阿里云主机accesskey泄露到图形化工具开发

600斤蓝鳍金枪鱼价钱，中国蓝鳍金枪鱼分布

评论列表

发表评论

Copyright Your WebSite.Some Rights Reserved.

黑客24小时在线接单的网站

Python爬虫开发（四）：动态加载页面的解决方案与爬虫署理

“Python爬虫开发（四）：动态加载页面的解决方案与爬虫署理” 的相关文章

创业板投资风险揭示书,创业板风险揭示书

【紧急+重要】勒索病毒解决方案！附：MS17-010补丁下载

Webshell安全检测篇（1）-根据流量的检测方法

黄埔燃料油现货价格_今日燃料油市场价格

记一次阿里云主机accesskey泄露到图形化工具开发

600斤蓝鳍金枪鱼价钱，中国蓝鳍金枪鱼分布

评论列表

发表评论取消回复

Copyright Your WebSite.Some Rights Reserved.

发表评论