当前位置：首页 > 黑客服务 > 正文内容

Python爬虫开发（三）：数据存储以及多线程

访客4年前 (2021-04-15)黑客服务631

本文咱们就两个方面来评论怎么改善咱们的爬虫：数据存储和多线程，当然我供认这是为咱们今后要评论的一些东西做衬托。
意图：一般咱们需求对爬虫捕捉的数据进行剖析，处理，再次使用或许格局化，明显咱们不能只是把爬虫捕捉到的数据在内存中处理，然后打印在屏幕上。在本章，我将介绍几种干流的数据存储方法。爬虫处理数据的才能往往是决议爬虫价值的决议性要素，一起一个安稳的存储数据的方法也肯定是一个爬虫的价值表现。
别的，选用多开线程的爬虫，发明多个并行线程和谐作业也肯定是进步爬虫功率，下降失败率的好方法。
0×01 引导
咱们就接下来要讲的部分做一个简略的引导，关于数据存储方法：
1、存储索引或许直接下载数据
2、CSV
3、MySQL
关于线程：
假如读者并不会python的线程处理，能够参阅这篇文章。
分为函数式和类包装，这两个方法进行线程处理。
0×02 数据存储:存储索引或许直接下载数据
关于这一点我觉得没有必要做深化的解说，因为这一点咱们在前几篇文章中或多或少都有触摸：比方制造sitemap:这儿存储了整个网站你需求的链接，比方抓取freebuff文章生成.docx文档的这一节，这些其实都归于本节所说的数据存储方法。那么就本节而言，我再介绍一个比如，爬取一个freebuf产品列表区域一切的图片（听起来仍是挺风趣的吧！？）
过程1：了解网站结构
过程2：编写脚本
过程3：测验
首要咱们需求了解一下咱们的方针（为了防止广告嫌疑，这儿仍是以freebuf作为方针吧）

检查元素发现下面的div标签包含了单个的产品信息，
Div(class=nall-news)->div(class=col-sm6col-md-lg-4 mall-product-list)->div(class=photo)->a->img
这样咱们就轻松加愉快地找到了img地点的当地，那么依据这些，咱们能够指定简略的计划：获取产品的地点的标签，然后因为产品标签的一致性，咱们能够一层一层索引下去找到图片的方位，当然有个不稳妥的方法便是，获取的直接获取img，（走运的是，在这个比如中只存在一个img标签），咱们测验从简，节省时刻，那么一两分钟咱们就写出了自己的脚本：
import urllib
from bs4 import BeautifulSoup
import re
url = 'http://shop.freebuf.com/'
print "prepare&reading to read theweb"
data = urllib.urlopen(url).read()
print data
print "parsing ... ... ... "
soup = BeautifulSoup(data)
#
itemlist =soup.findAll(name='div',attrs={'class':'col-sm-6 col-md-4 col-lg-4mall-product-list'})
for item in itemlist:
print item.img
这样咱们就在自己的debug I/O看到了打印出的九个img标签：

然后咱们用曾经学到的技术，就满足把这些图片dump下来了，
完善脚本！
import urllib
from bs4 import BeautifulSoup
import re
url = 'http://shop.freebuf.com/'
print "prepare&reading to read theweb"
data = urllib.urlopen(url).read()
print data
print "parsing ... ... ... "
soup = BeautifulSoup(data)
#
itemlist = soup.findAll(name='div',attrs={'class':'col-sm-6col-md-4 col-lg-4 mall-product-list'})
for item in itemlist:
"""
为了适配图片的格局，咱们这儿这样处理。
不过不是肯定的，某些时分这样做就不适宜：
"""
print item.img['src'][-4:]
"""
urlretrieve这个方法是咱们曾经触摸过的，用于下载图片，还能够下载整个页面：
"""
urllib.urlretrieve(url=item.img['src'],filename=item.img['alt']+item.img['src'][-4:])
然后咱们能够看一下作用，这样做的优点便是防止下来一大堆无关的图片，（有些时分咱们下载整站，然后提取图片会发现各种图片混在一起了，那样的确烦得很）：

作用能够说是还不错吧，当然我懒并没有把图片树立文件夹存起来。
0×03 数据存储：CSV
CSV(comma-separated values),是现在比较盛行的一种文件存储格局。被Excel和许多的应用程序支撑。CSV文件存储的比如如下：
Fruit,cost
Apple,1.00
Banana,0.30
Pear,1.25
看起来便是表格的压缩版，其实真的没有什么古怪的，这个很简略的对吧？当然，咱们都能想到这种方法存储表格再好不过了。不过笔者在这儿主张：假如你只要一个table要处理，复制粘贴应该是比这样快，假如一堆table要处理，或许是要从各种数据中挑选出表格，然后组合成一张新表，这样无疑能够加速你的速度。
那么咱们就举一个比如来介绍一个下咱们下一个比如。一定是一个风趣的体会：
作为上一个比如的拓宽：咱们腰身成一个.csv文件，存储每个产品的称号和需求的金币数。

咱们调查一下详细的金币方位，产品信息都在哪里？笔者信任咱们现已看到了，那么接下来咱们得先收拾一下获取info的方法：
class="col-sm-6 col-md-4col-lg-4 mall-product-list">->div(class=info)
只是一步咱们就能够得到信息方位。
Div(class=info)->h4->产品信息

[1] [2] [3] 黑客接单网

扫描二维码推送至手机访问。

本文链接：https://therlest.com/105924.html

分享给朋友：

返回列表

上一篇：鬼话数据库SQL注入的N种姿态

下一篇：探究Flask/Jinja2中的服务端模版注入（一）

评论列表

晴枙怀桔

3年前 (2022-07-02)

这两个方法进行线程处理。0×02 数据存储:存储索引或许直接下载数据关于这一点我觉得没有必要做深化的解说，因为这一点咱们在前几篇文章中或多或少都有触摸：比方制造sitemap

回复该评论

发表评论

« 2025年3月 »
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

文章归档

黑客24小时在线接单的网站

Python爬虫开发（三）：数据存储以及多线程

“Python爬虫开发（三）：数据存储以及多线程” 的相关文章

贾秀东个人资料简介(简历及图片)

身份证信息被黑客盗取（黑客能把手机内身份证信息盗取吗）

dnf国庆套礼包内容「地下城国庆套2021」

铁盖子可以放入高压锅蒸吗？装酱料的铁盖子，外面的涂层有些剥落，好

中国水产养殖网官网_中国水产价格网

西安电脑黑客接单_怎么能找入侵蚊香社的黑客

评论列表

发表评论

Copyright Your WebSite.Some Rights Reserved.

黑客24小时在线接单的网站

Python爬虫开发（三）：数据存储以及多线程

“Python爬虫开发（三）：数据存储以及多线程” 的相关文章

贾秀东个人资料简介(简历及图片)

身份证信息被黑客盗取（黑客能把手机内身份证信息盗取吗）

dnf国庆套礼包内容 「地下城国庆套2021」

铁盖子可以放入高压锅蒸吗？装酱料的铁盖子，外面的涂层有些剥落，好

中国水产养殖网官网_中国水产价格网

西安电脑黑客接单_怎么能找入侵蚊香社的黑客

评论列表

发表评论取消回复

Copyright Your WebSite.Some Rights Reserved.

dnf国庆套礼包内容「地下城国庆套2021」

发表评论