当前位置：首页 > 网络安全 > 正文内容

Python研究之爬虫练习

访客4年前 (2021-04-14)网络安全1044

本仙女回来啦，阔别已久，分外想念。前天的一次应急响应学到很多内网知识，还认识了很多大厂小哥。对学技术的男孩儿有种天生的好感，比心比心~

呐，今天复习一下爬虫，给你们分享我爬的美女小姐姐。要是文章有错误，小哥哥小姐姐请私聊我。

0x00 爬虫前期准备

1. 爬虫就是模拟浏览器抓取东西，爬虫三部曲：数据爬取、数据解析、数据存储

数据爬取：手机端、pc端数据解析：正则表达式数据存储：存储到文件、存储到数据库

2. 相关python库

爬虫需要两个库模块：requests和re

1. requests库

requests是比较简单易用的HTTP库，相较于urllib会简洁很多，但由于是第三方库，所以需要安装，文末附上安装教程链接（链接全在后面，这样会比较方便看吧，贴心吧~）

requests库支持的HTTP特性：

保持活动和连接池、Cookie持久性会话、分段文件上传、分块请求等

Requests库中有许多方法，所有方法在底层的调用都是通过request()方法实现的，所以严格来说Requests库只有request()方法，但一般不会直接使用request()方法。以下介绍Requests库的7个主要的方法：

①requests.request()

构造一个请求，支撑一下请求的方法

具体形式：requests.request(method,url,**kwargs)

method：请求方式，对应get,post,put等方式

url：拟获取页面的url连接

**kwargs：控制访问参数

②requests.get()

获取网页HTM网页的主要方法，对应HTTP的GET。构造一个向服务器请求资源的Requests对象，返回一个包含服务器资源的Response对象。

Response对象的属性：

属性说明r.status_codeHTTP请求的返回状态(连接成功返回200；连接失败返回404)r.textHTTP响应内容的字符串形式，即：url对应的页面内容r.encoding从HTTP header中猜测的响应内容编码方式r.apparent_encoding从内容中分析出的响应内容编码方式（备选编码方式）r.contentHTTP响应内容的二进制形式

具体形式：res=requests.get(url)

code=res.text? ? (text为文本形式；bin为二进制；json为json解析)

③requests.head()

获取HTML的网页头部信息，对应HTTP的HEAD

具体形式：res=requests.head(url)

④requests.post()

向网页提交post请求方法，对应HTTP的POST

具体形式：res=requests.post(url)

⑤requests.put()

向网页提交put请求方法，对应HTTP的PUT

⑥requests.patch()

向网页提交局部修改的请求，对应HTTP的PATCH

⑦requests.delete()

向网页提交删除的请求，对应HTTP的DELETE

"""requests 操作练习"""

import requests

import re

#数据的爬取

h={

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'

}

response=requests.get('https://movie.douban.com/chart',headers=h)

html_str=response.text

#数据解析<a class="nbg" href="https://movie.XX.com/subject/34961898/"? title="汉密尔顿">

pattern=re.compile('<a class="nbg".*?title="(.*?)">')? ? ?#? .*? 任意匹配尽可能多的匹配尽可能少的字符

result=re.findall(pattern,html_str)

print(result)

2. re正则表达式：(Regular Expression)

一组由字母和符号组成的特殊字符串，作用：从文本中找到你想要的格式的句子

关于 .*? 的解释：

*? ? 匹配前面的子表达式零次或多次。例如，zo能匹配“z”以及“zoo”。等价于{0,}。

? 匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串。例如，对于字符串“oooo”，“o+?”将匹配单个“o”，而“o+”将匹配所有“o”。

.? ? ?匹配除“ ”之外的任何单个字符。要匹配包括“ ”在内的任何字符，请使用像“(.

.*? ?具有贪婪的性质，首先匹配到不能匹配为止，根据后面的正则表达式，会进行回溯。

.*？则相反，一个匹配以后，就往下进行，所以不会进行回溯，具有最小匹配的性质（尽可能匹配少的字符但是要匹配出所有的字符）。

(.*) 是贪婪匹配代表尽可能多的匹配字符因此它将h和l之间所有的字符都匹配了出来

3. xpath解析源码

import requests

import re

from bs4 import? BeautifulSoup

from lxml import etree

#数据爬取（一些HTTP头的信息）

h={

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'

}

response=requests.get('https://movie.XX.com/chart',headers=h)

html_str=response.text

#数据解析

#正则表达式解析

def re_parse(html_str):

pattern=re.compile('<a class="nbg".*?title="(.*?)"')

results=re.findall(pattern,html_str)

print(results)

return results

#bs4解析

def bs4_parse(html_str):

soup=BeautifulSoup(html_str,'lxml')

items=soup.find_all(class_='nbg')

for item in items:

print(item.attrs['title'])

#lxml解析

def lxml_parse(html_str):

html=etree.HTML(html_str)

results=html.xpath('//a[@class="nbg"]/@title')

print(results)

return results

re_parse(html_str)

bs4_parse(html_str)

lxml_parse(html_str)

4. python写爬虫的架构

从图上可以看到，整个基础爬虫架构分为5大类：爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。

下面给大家依次来介绍一下这5个大类的功能：

① 爬虫调度器：主要是配合调用其他四个模块，所谓调度就是取调用其他的模板。

② URL管理器：就是负责管理URL链接的，URL链接分为已经爬取的和未爬取的，这就需要URL管理器来管理它们，同时它也为获取新URL链接提供接口。

③ HTML下载器：就是将要爬取的页面的HTML下载下来。

④ HTML解析器：就是将要爬取的数据从HTML源码中获取出来，同时也将新的URL链接发送给URL管理器以及将处理后的数据发送给数据存储器。

⑤ 数据存储器：就是将HTML下载器发送过来的数据存储到本地。

0x01 whois爬取

每年，有成百上干万的个人、企业、组织和政府机构注册域名，每个注册人都必须提供身份识别信息和联系方式，包括姓名、地址、电子邮件、联系电话、管理联系人和技术联系人一这类信息通常被叫做whois数据

"""

whois

http://whois.chinaz.com/sina.com

"""

import requests

import re

h={

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'

}

response=requests.get('http://whois.chinaz.com/'+input("请输入网址："),headers=h)

print(response.status_code)

html=response.text

#print(html)

#解析数据

pattern=re.compile('class="MoreInfo".*?>(.*?)</p>',re.S)

result=re.findall(pattern,html)

# 方法一：

# str=re.sub(' ',',',result[0])

# print(str)

#方法二：

print(result[0].replace('/n',','))

0x02 爬取电影信息

"""爬取*眼电影前100电影信息"""

import requests

import re

import time

# count=[0,10,20,30,40,50,60,70,80,90]

h={

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'

}

responce=requests.get('https://XX.com/board/4?offset=0', headers=h)

responce.encoding='utf-8'

html=responce.text

# 解析数据? time.sleep(2)

patter=re.compile('class="name">.*?title="(.*?)".*?主演：(.*?)</p>.*?上映时间：(.*?)</p>', re.S)

#time.sleep(2)

result=re.findall(patter, html)

print(result)

with open('maoyan.txt', 'a', encoding='utf-8') as f:

for item in result:? # 读取result（以元组的形式储存）中的内容=》

for i in item:

f.write(i.strip().replace(' ', ','))

#print(' ')

0x03 爬取图片

"""*精灵爬取练习 http://616pic.com/png/?==》 http://XX.616pic.com/ys_img/00/06/20/64dXxVfv6k.jpg"""

import requests

import re

import time

#数据的爬取img的url

def get_urls():

response=requests.get('http://XX.com/png/')

html_str=response.text

#解析数据，得到url

pattern=re.compile('<img class="lazy" data-original="(.*?)"')

results=re.findall(pattern,html_str)

print(results)

return results

#<img class="lazy" data-original="http://XX.616pic.com/ys_img/00/06/20/64dXxVfv6k.jpg">

#下载图片

def down_load_img(urls):

for url in urls:

response=requests.get(url)

with open('temp/'+url.split('/')[-1], 'wb') as f:

f.write(response.content)

print(url.split('/')[-1],'已经下载成功')

if __name__=='__main__':

urls=get_urls()

down_load_img(urls)

0x04 爬取小仙女

'''头条美女爬取====方法一'''import requests
import re
url='https://www.XX.com/api/search/content/?aid=24&app_name=web_search&offset=0&format=json&keyword=%E7%BE%8E%E5%A5%B3&autoload=true&count=20&en_qc=1&cur_tab=1&from=search_tab&pd=synthesis&amptimestamp=1596180364628&_signature=-Bv0rgAgEBA-TE0juRclmfgatbAAKdC7s6ktYqc7u9jLqXOQ5SBCDkd25scxRvDydd6TgtOw0B7RVuaQxhwY1BwV89sPbdam8LkNuV08d0QfrZqQ4oOOrOukEJ1qxroigLT'
response=requests.get(url)
print(response.status_code)
html_str=response.text
#解析"large_image_url":"(.*?)"
pattern=re.compile('"large_image_url":"(.*?)"')
urls=re.findall(pattern,html_str)
print(urls)def down_load(urls):
for url in urls:
response=requests.get(url)
with open('pic/'+url.split('/')[-1],'wb') as f:
f.write(response.content)
print(url.split('/')[-1],'已经下载成功')
if __name__=='__main__':
down_load(urls)

'''头条美女爬取====方法二'''import requests
import re
from urllib.parse import urlencode
#https://www.XX.com/api/search/content/?aid=24&app_name=web_search&offset=0&format=json&keyword=%E7%BE%8E%E5%A5%B3&autoload=true&count=20def get_urls(page):
keys={
'aid':'24',
'app_name':'web_search',
'offset':20*page,
'keyword':'美女',
'count':'20'
}
keys_word=urlencode(keys)
url='https://www.XX.com/api/search/content/?'+keys_word
response=requests.get(url)
print(response.status_code)
html_str=response.text
# 解析"large_image_url":"(.*?)"
pattern=re.compile('"large_image_url":"(.*?)"',re.S)
urls=re.findall(pattern, html_str)
return urls#下载图片
def download_imags(urls):
for url in urls:
response=requests.get(url)
with open('pic/'+url.split('/')[-1]+'.jpg','wb') as f:
f.write(response.content)
print(url.split('/')[-1]+'.jpg',"已下载~~")if __name__=='__main__':
for page in range(3):
urls=get_urls(page)
print(urls)
download_imags(urls)

0x05 线程池

线程池是一种多线程处理形式，处理过程中将任务添加到队列，然后在创建线程后自动启动这些任务。线程池线程都是后台线程。每个线程都使用默认的堆栈大小，以默认的优先级运行，并处于多线程单元中。

"""线程池"""from concurrent.futures import ThreadPoolExecutor
import time
import threadingdef ban_zhuang(i):
print(threading.current_thread().name,"**开始搬砖{}**".format(i))
time.sleep(2)
print("**员工{}搬砖完成**一共搬砖：{}".format(i,12**2)) ? #将format里的内容输出到{}if __name__=='__main__': ? ? ? ? ? ? #主线程
start_time=time.time()
print(threading.current_thread().name,"开始搬砖")
with ThreadPoolExecutor(max_workers=5) as pool:
for i in range(10):
p=pool.submit(ban_zhuang,i)
end_time=time.time()
print("一共搬砖{}秒".format(end_time-start_time))

结合多线程的爬虫：

'''头条美女爬取'''import requests
import re
from urllib.parse import urlencode
import timeimport threading
#https://www.XX.com/api/search/content/?aid=24&app_name=web_search&offset=0&format=json&keyword=%E7%BE%8E%E5%A5%B3&autoload=true&count=20def get_urls(page):
keys={
'aid':'24',
'app_name':'web_search',
'offset':20*page,
'keyword':'美女',
'count':'20'
}
keys_word=urlencode(keys)
url='https://www.XX.com/api/search/content/?'+keys_word
response=requests.get(url)
print(response.status_code)
html_str=response.text
# 解析"large_image_url":"(.*?)"
pattern=re.compile('"large_image_url":"(.*?)"',re.S)
urls=re.findall(pattern, html_str)
return urls#下载图片
def download_imags(urls):
for url in urls:
try:
response=requests.get(url)
with open('pic/'+url.split('/')[-1]+'.jpg','wb') as f:
f.write(response.content)
print(url.split('/')[-1]+'.jpg',"已下载~~")
except Exception as err:
print('An exception happened: ')
if __name__=='__main__':
start=time.time()
thread=[]
for page in range(3):
urls=get_urls(page)
#print(urls)
#多线程
for url in urls:
th=threading.Thread(target=download_imags,args=(url,))
#download_imags(urls)
thread.append(th)
for t in thread:
t.start()
for t in thread:
t.join()end=time.time()
print('耗时：',end-start)

0X06 tips--爬虫协议

Robots协议，又称作爬虫协议，机器人协议，全名叫做网络爬虫排除标准（Robots Exclusion Protocol）,是用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取，通常为一个robots.txt文本文件，一般放在网站的根目录下。

Robots协议:在网页的根目录+/robots.txt? 如www.baidu.com/robots.txt

User-agent: Baiduspider Disallow: /baidu Disallow: /s? Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bh User-agent: Googlebot Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bh

tips：要遵守爬虫协议哟，呐。。只能用于爬着玩儿哈~~~记得挂代理~~~（文中的链接我都改过啦，想练手的私聊我，或者自己找链接吧。。。挺好玩儿的啦）

0x07 相关链接

requests的安装与使用? ? https://www.jianshu.com/p/140012f88f8e

re的使用说明? ? https://www.cnblogs.com/vmask/p/6361858.html

其他的爬虫相关文章? ? https://blog.csdn.net/qq_27297393/article/details/81630774

爬虫的视频? ? https://www.imooc.com/learn/563

扫描二维码推送至手机访问。

本文链接：https://therlest.com/106124.html

分享给朋友：

返回列表

上一篇：安全搜索引擎Shodan（搜蛋）命令行形式运用TIPS

下一篇：陌陌黑客照片

“Python研究之爬虫练习” 的相关文章

洗米华小三（浅谈米花三笑的微博）

据长江网2021年11月26日23:49:22的最新消息，微博网友@ 爆料。平安夜来临之际，事件，在网上炒得沸沸扬扬，引发全网热议！据悉，洗米华小三。猜测这是洗米华在暗中帮助着Mandy。挺想看他老婆小三都抛弃他的场面。 1.洗米华小三 m...

【紧急+重要】勒索病毒解决方案！附：MS17-010补丁下载

　　滚动更新：2017年5月13日16:57:22 　　游侠安全网（良心网站，站长先贴上注意事项和解决方法！防止你看本文的时候就被加密了！　　1、本次共计是自动化攻击，利用了Windows的MS17-010。但苹果的MacOS用户不用得意，因为在昨晚之前，我这里得到的好几起勒索攻击案例都是针对...

Webshell安全检测篇（1）-根据流量的检测方法

一、概述笔者一直在重视webshell的安全剖析，最近就这段时刻的心得体会和咱们做个共享。 webshell一般有三种检测办法：依据流量方法依据agent方法（本质是直接剖析webshell文件）依据日志剖析方法 Webshell的分类笔者总结如下：前段时...

奥门币币对人民币换算 - 澳元兑换人民币汇率

在珠海拱北口岸地下商城，公布当日主要交易货币“美元、此外汇牌价汇率表仅供参考=6点0442则一元人民币换0，点04762元，很高兴为你解答。 1点2208澳门元数据对仅供参考，划算另外，另外汇率是不断变化的，可以百度输入＂澳门元对人民币汇率，货币兑换1澳元=4点。在外面买东西的小店不是太正规的，...

记一次阿里云主机accesskey泄露到图形化工具开发

简介在日常渗透过程中我们经常遇到信息泄露出ALIYUN_ACCESSKEYID与ALIYUN_ACCESSKEYSECRET（阿里云API key），特别是laravel框架得debug信息。APP中也会泄露这些信息。！！！下载链接在文末！！！概述我们说下阿里API有什么用吧，以下是...

上海南京东路站街伴游2019-【杨雅瑄】

“上海南京东路站街伴游2019-【杨雅瑄】” 上海伴游陪游旅行网顾建军,上海伴游网顾建军的详细资料一：找真实的经纪人龙家住广州天河区的王先生最近咨询小编问广州如何学生伴游，怎么能获得他们联系方式大家可以先通过百,104,广州学生伴游联系方式,广州商务伴游预约,家住广州天河区的王先生最近咨询小编问...

评论列表

慵吋邶谌

3年前 (2022-06-07)

toload=true&count=20def get_urls(page):keys={'aid':'24','app_name':'web_search','offset':20*page,'keyword':'美女','c

回复该评论

冬马空宴

3年前 (2022-06-07)

外的任何单个字符。要匹配包括“”在内的任何字符，请使用像“(..*? ?具有贪婪的性质，首先匹配到不能匹配为止，根据后面的正则表达式，会进行回溯。.*？则相反，一个匹配以后，就往下进行，所以不会进行回溯，具有最小匹配的性质（尽可能

回复该评论

发表评论

« 2024年12月 »
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

文章归档

黑客24小时在线接单的网站

Python研究之爬虫练习

0x00 爬虫前期准备

1. 爬虫就是模拟浏览器抓取东西，爬虫三部曲：数据爬取、数据解析、数据存储

2. 相关python库

3. xpath解析源码

4. python写爬虫的架构

0x01 whois爬取

0x02 爬取电影信息

0x03 爬取图片

0x04 爬取小仙女

0x05 线程池

0X06 tips--爬虫协议

0x07 相关链接

“Python研究之爬虫练习” 的相关文章

洗米华小三（浅谈米花三笑的微博）

【紧急+重要】勒索病毒解决方案！附：MS17-010补丁下载

Webshell安全检测篇（1）-根据流量的检测方法

奥门币币对人民币换算 - 澳元兑换人民币汇率

记一次阿里云主机accesskey泄露到图形化工具开发

上海南京东路站街伴游2019-【杨雅瑄】

评论列表

发表评论

Copyright Your WebSite.Some Rights Reserved.

黑客24小时在线接单的网站

Python研究之爬虫练习

0x00 爬虫前期准备

1. 爬虫就是模拟浏览器抓取东西，爬虫三部曲：数据爬取、数据解析、数据存储

2. 相关python库

3. xpath解析源码

4. python写爬虫的架构

0x01 whois爬取

0x02 爬取电影信息

0x03 爬取图片

0x04 爬取小仙女

0x05 线程池

0X06 tips--爬虫协议

0x07 相关链接

“Python研究之爬虫练习” 的相关文章

洗米华小三（浅谈米花三笑的微博）

【紧急+重要】勒索病毒解决方案！附：MS17-010补丁下载

Webshell安全检测篇（1）-根据流量的检测方法

奥门币币对人民币换算 - 澳元兑换人民币汇率

记一次阿里云主机accesskey泄露到图形化工具开发

上海南京东路站街伴游2019-【杨雅瑄】

评论列表

发表评论取消回复

Copyright Your WebSite.Some Rights Reserved.

发表评论