当前位置:首页 > 黑客业务 > 正文内容

python有什么用(Python有什么用)

hacker7个月前 (05-06)黑客业务53

今日份知识你摄入了么?

图片来自Unsplash,作者Tamas Pap

在本文中,我将讨论学习数据工程感兴趣的人可能感兴趣的数据工程书籍和资源。我意识到市场上并没有很多关于数据工程的综合概念解释的书籍。其中一些书籍介绍了如何使用特定工具和数据平台架构,而另一些则是我最喜欢的睡前读物:令人惊讶地容易入睡而且枯燥无味。有些书籍适用于战略决策,而有些可能看起来有点过时但仍然有用。希望你会觉得有趣。

01

Python数据工程

Data Engineering with Python

使用Python处理海量数据集来设计数据模型和自动化数据管道

Paul Crickard,2020年

对于那些想要学习开源Apache数据工程工具的人来说,这是一本很棒的书。它涵盖了所有基本的数据工程主题,如数据建模,并提供了大量最常见的数据转换示例。正如书中所提到的,它是关于Python和数据建模的,所以读者将专注于ETL技术,使用Python工具提取、清理和丰富数据集。它详细解释了Apache Kafka和Apache Spark,但也涵盖了使用文件格式、数据转换和清理的基本要素。这本书对数据管道部署以及数据环境提供了一些非常好的观点。

02

数据工程基础

Fundamentals of Data Engineering

Joe Reis, Matt Housley著

展开全文

2022年6月发布

出版商:O 'Reilly Media, Inc.

总的来说,这是一本非常好的书,我相信这是我目前正在写的书中最接近的一本。它涵盖了基本原理,确实很棒。然而,它并没有解释如何成为一名数据工程师。根据这本书,进入这个角色没有捷径,也没有简单的方法。读者需要花2-3年的时间来研究这个特定的领域。

我喜欢这本书的地方在于,它提供了一种对技术和架构的独立观点。

我们不会在这本书看到任何营销,在第2章中,它非常清晰地关注了数据工程生命周期,并解释了它是如何从项目需求收集和管道设计开始工作的,并涵盖了该领域的最佳实践。

这本书都是关于SQL和Python以及如何使用它们来解决现实世界的数据工程任务。第4章介绍了选择正确数据工程技术的框架。

python有什么用(Python有什么用)

总的来说,这是我的最爱之一。它不仅涵盖了数据生成、ETL、聚合和清理的复杂性,而且还关注了可能对数据工程管理人员有用的策略。

03

数据仓库工具包:维度的权威指南

The Data Warehouse Toolkit: The Definitive Guide to Dimensional

建模,第三版

Ralph Kimball , Margy Ross著

2013年发布

出版商(s):Wiley

我记得在几年前开始使用Snowflake时买了这本书。

这本书发布于2013年,仍然适用于许多数据建模场景。

我喜欢这本书的地方在于它的案例研究。它提供了来自不同行业的20多个真正有用的场景,如零售、营销等。它帮助我在更高的层次上理解维度建模和数据仓库设计。基本上,它解释了关于事实表和维度表以及如何在数据仓库解决方案中运行ETL的一切知识。

即使是现在,读这本书来见证数据仓库平台的发展也是非常有趣的。

04

数据网格

Data Mesh

Zhamak Dehghani著

2022年发布

出版者:Wiley

对数据网格原理的清晰而新颖的概述。数据网格和分散的数据管理无疑是数据工程领域的主要趋势之一。

数据网格定义了当我们拥有不同的数据领域(公司部门)及其团队和共享数据资源时的状态。

对于那些想要学习数据网格设计、策略和架构的人来说,这本书是一本很好的读物。本书以逻辑一致的方式解释了数据所有权模型,以超越传统的数据仓库方法,转向分散和分布式的数据平台。

05

数据管道口袋参考:移动和处理数据分析第1版

Data Pipelines Pocket Reference: Moving and Processing Data for Analytics 1st Edition

James Densmore著

格式:Kindle版

2021年2月发布

出版商:O 'Reilly Media, Inc.

这是我最喜欢的关于数据管道的书之一。在我的职业生涯中,一些Python和SQL代码片段对我非常有用。本书的Github存储库代码演示了如何从外部数据源提取数据并将其转换为数据集。

这本书介绍了一种“构建vs购买”的方法,这是数据工程师的任务。事实上,目前市场上有许多托管ETL解决方案,如Stitch、Fivetran等。本书涵盖了数据管道设计原则,并解释了如何为成功的分析创建强大的数据处理。这本书从体系结构的角度解释了数据管道设计的许多关键点。它还涵盖了云中现代数据基础设施、数据管道监控和警报等方面。

06

构建现代数据平台:大规模企业Hadoop指南

Architecting Modern Data Platforms: A Guide to Enterprise Hadoop at Scale

Jan Kunigk, Ian Buss, Paul Wilkinson, Lars George著

2019年发布

出版商:O 'Reilly Media, Inc.

这本书很好地解释了Hadoop技术。尽管该技术在中小企业层面不是很流行,但它认为企业应用仍然是可行的。这是一本有趣的读物,重点关注实际使用案例,旨在创建云端和本地的大数据基础设施。我相信对于经验丰富的数据工程师来说,这本书将对他们在云端创建企业级管道并确保高水平的安全性和可用性非常有用。

这不是我经常读的书,但仍然很有用,因为它概述了一些被认为已经过时的内容,了解到Hadoop仍然存在是一件好事。

07

Spark:权威指南:大数据处理简化第一版

Spark: The Definitive Guide: Big Data Processing Made Simple 1st Edition

Bill Chambers, Matei Zaharia著

2018年发布

python有什么用(Python有什么用)

出版商:O 'Reilly Media, Inc.

当谈到数据湖的大数据管道中的ETL时,这是我最喜欢的一个。我们都喜欢Spark的卓越可扩展性和成本效益。对于想要学习数据湖中可扩展数据处理的初学者和中级用户来说,这是一本很棒的书。它涵盖了一些基本的数据工程概念和使用Apache Spark进行数据湖数据处理。Apache Spark被用于许多云产品中,例如AWS Glue。它使本书成为有抱负的数据工程师的绝佳选择。

08

流式系统:大规模数据处理的内容、地点、时间和方式第1版

Streaming Systems: The What, Where, When, and How of Large-Scale Data Processing 1st Edition

Tyler Akidau, Slava Chernyak, Reuven Lax著

2018年发布

出版商:O 'Reilly Media, Inc.

这是一本关于流式数据处理设计模式的优秀书籍。它解释了流数据处理管道及其核心原理。对于数据工程师来说,理解数据管道设计模式的本质并正确应用它们是非常重要的,例如批处理数据处理、流式ETL等。由于流处理,应用程序可以触发对新数据事件的即时响应。

流式处理是企业数据必备的解决方案。

这本书帮助我选择正确的方式来处理数据,并创建接近实时的分析管道。通常情况下,并不总是需要使用流式处理,这可能会成为一种昂贵的解决方案。

09

用数据讲故事:商业专业人士的数据可视化指南第1版

Storytelling with Data: A Data Visualization Guide for Business Professionals 1st Edition

Cole Nussbaumer Knaflic(作者)

2015年发布

出版者:Wiley

这是一本关于数据可视化技术和商业智能(BI)的优秀书籍。虽然商业智能是数据工程的重要组成部分(反之亦然),但这本书并不是一本职业指南。该书解释了数据工程如何补充商业智能。它展示了如何以富有信息性、引人入胜的方式传达数据洞见。这本书对我的仪表盘设计帮助很大。我会把它加入我的书架。

10

流利的Python:清晰,简洁,有效的编程第二版

Fluent Python: Clear, Concise, and Effective Programming 2nd Edition

Luciano Ramalho著

2022年发布

出版商:O 'Reilly Media, Inc.

另一本关于Python的非常有用的书,我一直留着。Python是数据工程的重要组成部分,它使本书非常有用。本书分为五个部分,涵盖了数据工程师在数据管道中可能需要使用的几乎所有内容,例如上下文管理器、装饰器、生成器和异步编程等。

11

数据工程师应该知道的97件事:来自专家的集体智慧

97 Things Every Data Engineer Should Know: Collective Wisdom from the Experts

Tobias Macey著

2021年发布

出版商:O 'Reilly Media, Inc.

这是一本很棒的书,它证实了现在对数据工程师的需求很高。本书汇集了数据工程师的经验。他们中的许多人为在大数据和人工智能领域取得显著成功的公司设计了数据管道和ETL流程。很高兴看到人们仍然愿意分享他们的知识并解释他们是如何解决具有挑战性的ETL问题的。本书包含97个用例,几乎每个数据工程师都可以使用这些用例进行数据处理和数据管道设计。我喜欢每天读一篇。

结论

如果你是一个学习者或渴望掌握新的数据技能的数据爱好者,那么在云中有很多免费的机会。我强烈建议在其中一家云平台供应商那里建立帐户,开始学习市场上可用的数据工程工具。其中许多平台提供免费的基础服务,探索最新的数据工程进展不需要任何费用。只需确保在使用免费服务时密切关注计费情况。本文中给出的书籍概述将支持你的学习曲线。其中大部分假设读者能够熟练地使用JSON、SQL、REST API,并了解Python编程的基础知识。

原文作者:Mike Shakhomirov

翻译作者:Dou

美工编辑:过儿

校对审稿:Jason

原文链接:https://towardsdatascience.com/data-engineering-books-f373005d53fc

Meta的数据工程:内部技术栈的高级概述

在2024年实现数据科学家更好的工作与生活平衡

使用生成式AI编写代码的正确方法

LeMA:对于一个LLM来说,学习数学就是在犯错!

通过碎片化NFT实现商业模式创新

点「在看」的人都变好看了哦

点击“阅读原文”查看数据应用学院核心课程

扫描二维码推送至手机访问。

版权声明:本文由黑客接单发布,如需转载请注明出处。

本文链接:https://therlest.com/147455.html

分享给朋友:

“python有什么用(Python有什么用)” 的相关文章

华流芒种是几月几号农历

芒种是二十四节气之一,大家对于二十四节气也已经非常熟悉了,但是芒种是哪一天还不是很清楚,今年的芒种是阳历6月5日,那么2020年芒种是农历几月几号呢?接下来我们就一起了解一下吧。     2020年芒种是农历几月几号...

蜂胶多少钱一瓶是真的(蜂胶五毒膏多少钱一只)

之前听说这客户有糖尿病,蜂胶就是物稀价贵,变成日常可以食用的营养品。 我经常买的澳佳宝的120左右220粒。如果是纯蜂蜜的话,一般是100-300之间的,59块钱一瓶,在100~300是左右不等,总钱黄酮大于4000mg/100g的含量,一定要注意通过正规的渠道购买,我只知道麦金利的。 蜂胶软胶囊价...

存储过程oracle(oracle财务系统)

推荐教程:甲骨文教程 本文主要介绍甲骨文中的数据转换。 1.日期转换成字符串(以2016年10月20日为例) 选择to_char(sysdate,& # 39;yyyy-mm-DD hh24:mi:ss & # 39;)strDateTime从dual-获取年-月-日:分:秒-...

宝马3系全下来多少钱 「宝马3系320li落地价」

全国最低价为24点36万,价数字的意思如下:1、一般下来要28下来左右,北京的 裸车是22点5万,字母的意思如下:L是,贵吗.钱2020款宝马。 最不满意的一点,适合追求高配置的消费者了,你会觉得这就是你最正确的选择。王斩2015/07/2023:22:05发表在板凳无事故果断拿下新车落地接近50万...

intense靶场-获取User权限

出品|MS08067实验室(www.ms08067.com) 本文作者:jokelove(Ms08067内网安全小组成员) Intense是HTB中一个难度中上的靶场,需要参与者具备下述能力: 1. Python源码审计 2. SQL注入原理 3. SNMP远程命令执行 4. 栈溢出...

关注主播不迷路顺口溜「经验」

主播聊天话术900句(关注主播不迷路顺口溜) 在日常生活中,我们能看到会说话的人总能受到更多人的欢迎,会说话的人,左右逢源,如鱼得水;不会说话的人,处处受限,寸步难行。而在直播行业,更需要会说话,直播间是一个主动的单项输出,主播输出了才能有更多的回应,隔着屏幕,输出内容能否得到回应,这更是对所有主...

评论列表

泪灼末屿
7个月前 (05-06)

ly Media, Inc.另一本关于Python的非常有用的书,我一直留着。Python是数据工程的重要组成部分,它使本书非常有用。本书分为五个部分,涵盖了数据工程师在数据管道中可能需要使用的

晴枙债姬
7个月前 (05-07)

。只需确保在使用免费服务时密切关注计费情况。本文中给出的书籍概述将支持你的学习曲线。其中大部分假设读者能够熟练地使用JSON、SQL、REST API,并了解Python编程的基础知识。原文作者:M

舔夺里予
7个月前 (05-06)

h Kimball , Margy Ross著2013年发布出版商(s):Wiley我记得在几年前开始使用Snowflake时买了这本书。这本书发布于2013年,仍然适用于许多数据建模场景。我喜欢这本书的地方在于它的案例研究。它提供了来自不同行业的20多个真正有用的场

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。