当前位置:首页 > 网络黑客 > 正文内容

python简单代码(python简单代码决策树)

hacker6个月前 (06-22)网络黑客40

作者: qikqiak

来源:https://blog.qikqiak.com/post/python-convert-pdf-images/

作者: qikqiak

来源:https://blog.qikqiak.com/post/python-convert-pdf-images/

之前收集了很多优秀的 PDF文档,但是需要看的时候不是很方便,需要去找到这个文件,如果是在手机上的话往往还需要下载 PDF相关的插件才行,而且最大的问题是不便于资料的整理和分享。如果能够将 PDF转换成网页,岂不是就能解决这些问题了?还能直接分享出去。

这里利用 PyPDF包来处理 PDF文件,为了方便快捷,我这里直接将一个页面转换成图片,就不需要去识别页面中的每一个 PDF元素了,这是没必要的。

转换

核心代码很简单,就是将 PDF文件读取出来,转换成 PdfFileReader,然后就可以根据 PyPDF2的API去获得每一个页面的二进制数据,拿到二进制数据过后,就能很方便的进行图片处理了,这里用 wand包来进行图片处理。

# -*- coding: utf-8 -*-

importio

fromwand.image importImage

fromwand.color importColor

fromPyPDF2importPdfFileReader,PdfFileWriter

展开全文

python简单代码(python简单代码决策树)

memo ={}

defgetPdfReader(filename):

reader =memo.get(filename,None)

ifreader isNone:

reader =PdfFileReader(filename,strict=False)

memo[filename]=reader

returnreader

def_run_convert(filename,page,res=120):

idx =page +1

pdfile =getPdfReader(filename)

pageObj =pdfile.getPage(page)

dst_pdf =PdfFileWriter()

python简单代码(python简单代码决策树)

dst_pdf.addPage(pageObj)

pdf_bytes =io.BytesIO()

dst_pdf.write(pdf_bytes)

pdf_bytes.seek(0)

img =Image(file=pdf_bytes,resolution=res)

img.format ='png'

img.compression_quality =90

img.background_color =Color("white")

img_path ='%s%d.png'%(filename[:filename.rindex('.')],idx)

img.save(filename=img_path)

img.destroy()

需要注意的是一般PDF文件较大,如果一次性转换整个PDF文件需要小心内存溢出的问题,我们这里将第一次载入的整个PDF文件保存到内存,避免每次读取的时候都重新载入。

需要注意的是一般PDF文件较大,如果一次性转换整个PDF文件需要小心内存溢出的问题,我们这里将第一次载入的整个PDF文件保存到内存,避免每次读取的时候都重新载入。

上面已经完成了一个 PDF页面的转换,要完成整个文件的转换就很简单了,只需要拿到文件的总页码,然后循环执行就行。考虑到转换比较耗时,可以使用异步处理的方式加快速度。比如可以使用 celery来搭配处理,一定注意小心内存泄露。

核心代码已经整理放到github上去了,好了,等有时间的时候准备做一个公共的 PDF转成 H5的服务,开放给大众使用。

花了点时间,做成了一个独立的服务:https://pdfh5.com,欢迎大家试用

花了点时间,做成了一个独立的服务:https://pdfh5.com,欢迎大家试用

扫描二维码推送至手机访问。

版权声明:本文由黑客接单发布,如需转载请注明出处。

本文链接:https://therlest.com/148391.html

分享给朋友:

“python简单代码(python简单代码决策树)” 的相关文章

我老公老是让他家的亲戚来我家,我该怎么办?请各位帮我想想办法,我

我老公老是让他家的亲戚来我家,我该怎么办?请各位帮我想想办法,我 请各位帮我想想办法,开网店怎么找女装货源唔爱神起助您成就财富人生,想做微商?想开实体店?想开淘宝店?什么才是你创业的最重要步骤?货源!想在微商卖童装母婴用品纸尿裤女装,开童装女装店铺,你去哪里找最好的货源?如何找童装女装一手货源呢?...

茯苓多少钱一克贵吗 - 土茯苓和茯苓哪个贵

因为很难挖到。茯苓2点5-3点5元一两,2016年1月4日更新。 30元左右一斤,还有以后.药店的销售价格通常在20,价格更高些,我在这边收购,2011年茯苓价格分两种价格,也就是两种产品,心;脾;肺;肾经。也和并不容易挖到。 4]渗湿利水;健脾和胃;宁心安神。即使在茯苓产地的山里面,茯苓价格悄悄地...

如厕阅读-如厕时读书看报有哪些坏处?

如厕阅读-如厕时读书看报有哪些坏处? 读书、看报兼如厕,不少人有这样的习惯。然而这一习惯非常不好。蹲厕时读书看报,会干扰大脑对排便传导神经的指挥,延长排便时间。现代医学研究证实,蹲厕超过3分钟即可直接导致直肠静脉曲张淤血,易诱发痔疮,且病情的轻重与时间长短有关。蹲厕时间越长,发病几率越高。因为久蹲...

怎样辨别有农药残留的蔬菜?

怎样辨别有农药残留的蔬菜? 一、不吃形状、颜色异常的蔬菜: 形状:颜色正常的蔬菜,一般是常规栽培,是未用激素等化学品处理的,可以放心地食用。 “异常”蔬菜可能用激素处理过,如韭菜,当它的叶子特别宽大肥厚,比一般宽叶一次同学聚会,我发现很多同学已经有房有车,毕竟毕业三年了,而我还只是每个月三千块...

宋pro1.5t买哪款合算 - 奇瑞1.5t发动机通病

而且车内空间也比轿车更宽敞。这款发动机的油耗还是比较高的,油耗、操控,比亚迪在科技配置方面一向是非常舍得,外观各方面均不错。该发动机为单顶置凸轮轴,奇瑞的技术储备应该是首当其冲的,而且保有量大将来保养维修也比较实惠。 缺点是技术老,在发动机第一盘变速箱方面拥有非常多的,身边朋友都劝他别买,它搭载的是...

免费永硕黑客网盘,黑客软件公司,网站被黑客攻击要多久才能恢复

写入文件C:WindowsSystem32MF.dll,指令如下:7月,咱们发布了NewsBeef(又称为APT33,或Charming Kitten)在2019-2019年期间的歹意活动状况,NewsBeef是一个歹意安排,首要重视沙特阿拉伯和西方的方针。 NewsBeef缺少先进的进犯才干,此前...

评论列表

痴妓比忠
6个月前 (06-22)

images/之前收集了很多优秀的 PDF文档,但是需要看的时候不是很方便,需要去找到这个文件,如果是在手机上的话往往还需要下载 PDF相关的插件才行,而且最大的问题是不便于资料的整理和分享。如果能够将 PDF转换成网页,岂不是就能解决这些问题了?还能直接分享出去。

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。