当前位置:首页 > 黑客业务 > 正文内容

大数据书籍推荐(大数据书籍推荐哪本)

hacker1个月前 (05-21)黑客业务20

今日份知识你摄入了么?

图片来自Unsplash,作者Tamas Pap

在本文中,我将讨论学习数据工程感兴趣的人可能感兴趣的数据工程书籍和资源。我意识到市场上并没有很多关于数据工程的综合概念解释的书籍。其中一些书籍介绍了如何使用特定工具和数据平台架构,而另一些则是我最喜欢的睡前读物:令人惊讶地容易入睡而且枯燥无味。有些书籍适用于战略决策,而有些可能看起来有点过时但仍然有用。希望你会觉得有趣。

01

Python数据工程

Data Engineering with Python

使用Python处理海量数据集来设计数据模型和自动化数据管道

Paul Crickard,2020年

对于那些想要学习开源Apache数据工程工具的人来说,这是一本很棒的书。它涵盖了所有基本的数据工程主题,如数据建模,并提供了大量最常见的数据转换示例。正如书中所提到的,它是关于Python和数据建模的,所以读者将专注于ETL技术,使用Python工具提取、清理和丰富数据集。它详细解释了Apache Kafka和Apache Spark,但也涵盖了使用文件格式、数据转换和清理的基本要素。这本书对数据管道部署以及数据环境提供了一些非常好的观点。

02

数据工程基础

Fundamentals of Data Engineering

Joe Reis, Matt Housley著

展开全文

2022年6月发布

出版商:O 'Reilly Media, Inc.

总的来说,这是一本非常好的书,我相信这是我目前正在写的书中最接近的一本。它涵盖了基本原理,确实很棒。然而,它并没有解释如何成为一名数据工程师。根据这本书,进入这个角色没有捷径,也没有简单的方法。读者需要花2-3年的时间来研究这个特定的领域。

我喜欢这本书的地方在于,它提供了一种对技术和架构的独立观点。

我们不会在这本书看到任何营销,在第2章中,它非常清晰地关注了数据工程生命周期,并解释了它是如何从项目需求收集和管道设计开始工作的,并涵盖了该领域的最佳实践。

这本书都是关于SQL和Python以及如何使用它们来解决现实世界的数据工程任务。第4章介绍了选择正确数据工程技术的框架。

总的来说,这是我的最爱之一。它不仅涵盖了数据生成、ETL、聚合和清理的复杂性,而且还关注了可能对数据工程管理人员有用的策略。

03

数据仓库工具包:维度的权威指南

The Data Warehouse Toolkit: The Definitive Guide to Dimensional

建模,第三版

Ralph Kimball , Margy Ross著

2013年发布

出版商(s):Wiley

我记得在几年前开始使用Snowflake时买了这本书。

这本书发布于2013年,仍然适用于许多数据建模场景。

我喜欢这本书的地方在于它的案例研究。它提供了来自不同行业的20多个真正有用的场景,如零售、营销等。它帮助我在更高的层次上理解维度建模和数据仓库设计。基本上,它解释了关于事实表和维度表以及如何在数据仓库解决方案中运行ETL的一切知识。

即使是现在,读这本书来见证数据仓库平台的发展也是非常有趣的。

04

数据网格

Data Mesh

Zhamak Dehghani著

2022年发布

出版者:Wiley

对数据网格原理的清晰而新颖的概述。数据网格和分散的数据管理无疑是数据工程领域的主要趋势之一。

数据网格定义了当我们拥有不同的数据领域(公司部门)及其团队和共享数据资源时的状态。

对于那些想要学习数据网格设计、策略和架构的人来说,这本书是一本很好的读物。本书以逻辑一致的方式解释了数据所有权模型,以超越传统的数据仓库方法,转向分散和分布式的数据平台。

05

数据管道口袋参考:移动和处理数据分析第1版

Data Pipelines Pocket Reference: Moving and Processing Data for Analytics 1st Edition

James Densmore著

格式:Kindle版

2021年2月发布

出版商:O 'Reilly Media, Inc.

这是我最喜欢的关于数据管道的书之一。在我的职业生涯中,一些Python和SQL代码片段对我非常有用。本书的Github存储库代码演示了如何从外部数据源提取数据并将其转换为数据集。

这本书介绍了一种“构建vs购买”的方法,这是数据工程师的任务。事实上,目前市场上有许多托管ETL解决方案,如Stitch、Fivetran等。本书涵盖了数据管道设计原则,并解释了如何为成功的分析创建强大的数据处理。这本书从体系结构的角度解释了数据管道设计的许多关键点。它还涵盖了云中现代数据基础设施、数据管道监控和警报等方面。

06

构建现代数据平台:大规模企业Hadoop指南

Architecting Modern Data Platforms: A Guide to Enterprise Hadoop at Scale

Jan Kunigk, Ian Buss, Paul Wilkinson, Lars George著

2019年发布

出版商:O 'Reilly Media, Inc.

这本书很好地解释了Hadoop技术。尽管该技术在中小企业层面不是很流行,但它认为企业应用仍然是可行的。这是一本有趣的读物,重点关注实际使用案例,旨在创建云端和本地的大数据基础设施。我相信对于经验丰富的数据工程师来说,这本书将对他们在云端创建企业级管道并确保高水平的安全性和可用性非常有用。

这不是我经常读的书,但仍然很有用,因为它概述了一些被认为已经过时的内容,了解到Hadoop仍然存在是一件好事。

07

Spark:权威指南:大数据处理简化第一版

Spark: The Definitive Guide: Big Data Processing Made Simple 1st Edition

大数据书籍推荐(大数据书籍推荐哪本)

Bill Chambers, Matei Zaharia著

2018年发布

出版商:O 'Reilly Media, Inc.

当谈到数据湖的大数据管道中的ETL时,这是我最喜欢的一个。我们都喜欢Spark的卓越可扩展性和成本效益。对于想要学习数据湖中可扩展数据处理的初学者和中级用户来说,这是一本很棒的书。它涵盖了一些基本的数据工程概念和使用Apache Spark进行数据湖数据处理。Apache Spark被用于许多云产品中,例如AWS Glue。它使本书成为有抱负的数据工程师的绝佳选择。

08

流式系统:大规模数据处理的内容、地点、时间和方式第1版

Streaming Systems: The What, Where, When, and How of Large-Scale Data Processing 1st Edition

Tyler Akidau, Slava Chernyak, Reuven Lax著

2018年发布

出版商:O 'Reilly Media, Inc.

这是一本关于流式数据处理设计模式的优秀书籍。它解释了流数据处理管道及其核心原理。对于数据工程师来说,理解数据管道设计模式的本质并正确应用它们是非常重要的,例如批处理数据处理、流式ETL等。由于流处理,应用程序可以触发对新数据事件的即时响应。

流式处理是企业数据必备的解决方案。

这本书帮助我选择正确的方式来处理数据,并创建接近实时的分析管道。通常情况下,并不总是需要使用流式处理,这可能会成为一种昂贵的解决方案。

09

用数据讲故事:商业专业人士的数据可视化指南第1版

Storytelling with Data: A Data Visualization Guide for Business Professionals 1st Edition

Cole Nussbaumer Knaflic(作者)

2015年发布

出版者:Wiley

这是一本关于数据可视化技术和商业智能(BI)的优秀书籍。虽然商业智能是数据工程的重要组成部分(反之亦然),但这本书并不是一本职业指南。该书解释了数据工程如何补充商业智能。它展示了如何以富有信息性、引人入胜的方式传达数据洞见。这本书对我的仪表盘设计帮助很大。我会把它加入我的书架。

10

流利的Python:清晰,简洁,有效的编程第二版

Fluent Python: Clear, Concise, and Effective Programming 2nd Edition

Luciano Ramalho著

2022年发布

出版商:O 'Reilly Media, Inc.

另一本关于Python的非常有用的书,我一直留着。Python是数据工程的重要组成部分,它使本书非常有用。本书分为五个部分,涵盖了数据工程师在数据管道中可能需要使用的几乎所有内容,例如上下文管理器、装饰器、生成器和异步编程等。

11

数据工程师应该知道的97件事:来自专家的集体智慧

大数据书籍推荐(大数据书籍推荐哪本)

97 Things Every Data Engineer Should Know: Collective Wisdom from the Experts

Tobias Macey著

2021年发布

出版商:O 'Reilly Media, Inc.

这是一本很棒的书,它证实了现在对数据工程师的需求很高。本书汇集了数据工程师的经验。他们中的许多人为在大数据和人工智能领域取得显著成功的公司设计了数据管道和ETL流程。很高兴看到人们仍然愿意分享他们的知识并解释他们是如何解决具有挑战性的ETL问题的。本书包含97个用例,几乎每个数据工程师都可以使用这些用例进行数据处理和数据管道设计。我喜欢每天读一篇。

结论

如果你是一个学习者或渴望掌握新的数据技能的数据爱好者,那么在云中有很多免费的机会。我强烈建议在其中一家云平台供应商那里建立帐户,开始学习市场上可用的数据工程工具。其中许多平台提供免费的基础服务,探索最新的数据工程进展不需要任何费用。只需确保在使用免费服务时密切关注计费情况。本文中给出的书籍概述将支持你的学习曲线。其中大部分假设读者能够熟练地使用JSON、SQL、REST API,并了解Python编程的基础知识。

原文作者:Mike Shakhomirov

翻译作者:Dou

美工编辑:过儿

校对审稿:Jason

原文链接:https://towardsdatascience.com/data-engineering-books-f373005d53fc

Meta的数据工程:内部技术栈的高级概述

在2024年实现数据科学家更好的工作与生活平衡

使用生成式AI编写代码的正确方法

LeMA:对于一个LLM来说,学习数学就是在犯错!

通过碎片化NFT实现商业模式创新

点「在看」的人都变好看了哦

点击“阅读原文”查看数据应用学院核心课程

扫描二维码推送至手机访问。

版权声明:本文由黑客接单发布,如需转载请注明出处。

本文链接:http://therlest.com/147769.html

分享给朋友:

“大数据书籍推荐(大数据书籍推荐哪本)” 的相关文章

华流芒种是几月几号农历

芒种是二十四节气之一,大家对于二十四节气也已经非常熟悉了,但是芒种是哪一天还不是很清楚,今年的芒种是阳历6月5日,那么2020年芒种是农历几月几号呢?接下来我们就一起了解一下吧。     2020年芒种是农历几月几号...

中铁快运寄件电话 - 中铁快运官方网站

尽快前去领取吧,查询可以来我们,包裹已经到石家庄了,告诉对方所寄何物。广木头箱子费用在及时上百不等。 .网站“中铁快运单号查询系统”留言查询,开始不知道。 中铁快运的,且电话通知无人接听,但是价格也很贵。在哪里寄,中铁快运,电话多少中铁。 打了个电话,K54,徐州中铁快运,你好,木头箱子中铁能提供。...

书黑客,黑客软件破解吃鸡,网站黑客攻击工具

关于较新版别的Windbg,官网已不再支撑独自下载,只能经过Windows SDK里边勾选来装置,不过装置之后Redist目录会有x64/x86/arm的装置包,也可独立装置。 此次评选活动的意图在于,在安全社区中宣扬这些技能,让职业进步对安全的注重,一起也能让这些技能能遭到认可和铭记。 因而,根据...

西湖论剑 Flagshop 分析复现

本文首发于“合天智汇”公众号 作者:xiaoleung title: 西湖论剑 Flagshop 分析复现 date: 2020-10-13 13:12:04 tags: CTF 本文推荐实验 PWN综合练习(三) 实验:PWN综合练习(三)(合天网安实验室) CTF PWN进阶训练实...

全球最大黑客组织匿名者「公司被黑客攻击要求汇比特币怎么办」

⒈匿名者黑客组织匿名者黑客组织是世界最大的黑客组织,也是世界最大的政治意识黑客组织。其关键遍布于美国,次之为欧洲国家,非州、南美洲、亚洲地区等地都是有其各分部。“匿。 ⒉世界上最大黑客组织匿名者向IS开战 匿名者是啥机构 - 百度搜索。是一个黑客组织,你能了解为一群很牛逼的计算机网大神。 ⒊匿名...

小编教你在电脑上如何制作表格

在大家办公室或是校园内的情况下,有时必须采用报表来统计分析一些数据信息或是备案一些信息内容。此刻大家一般都是会应用Excel专用工具来做表格,有一些初学者新手还不明白在电脑上上做表格的方式。今日我教你在电脑上怎样做表格。下边就要我们一起来瞧瞧吧。 电脑上做表格详尽实例教程: 1.大家最先在电脑上...

评论列表

莣萳木落
1个月前 (05-22)

书籍介绍了如何使用特定工具和数据平台架构,而另一些则是我最喜欢的睡前读物:令人惊讶地容易入睡而且枯燥无味。有些书籍适用于战略决策,而有些可能看起来有点过时但仍然有用。希望你会觉得有趣。01Python数据工程

世味怯慌
1个月前 (05-22)

。11数据工程师应该知道的97件事:来自专家的集体智慧97 Things Every Data Engineer Should Know: Collective Wisdom from the ExpertsTobias Macey著2021年发布出版商:O 'Rei

掩吻艳鬼
1个月前 (05-22)

rchitecting Modern Data Platforms: A Guide to Enterprise Hadoop at ScaleJan Kunigk, Ian Buss, Paul Wilki

孤鱼邶谌
1个月前 (05-22)

例如批处理数据处理、流式ETL等。由于流处理,应用程序可以触发对新数据事件的即时响应。流式处理是企业数据必备的解决方案。这本书帮助我选择正确的方式来处理数据,并创建接近

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。