大数据通俗解释(生活中的大数据10个例子)
大数据不仅是大量的数据,在其他方面也有一定的特点。
第一,大数据的数据量非常大,传统的单机存储系统已经不能存储这么大的数据量。这时候就需要分布式存储技术。
第二,大数据中的数据种类繁多,数据的格式会变得复杂,比如视频、文档、图片、消息记录等等。
第三,大数据中隐藏着一个非常重要的价值。通过数据分析技术,智能、数字化地支持业务决策。
大数据的主要作用是为公司上层提供商业决策支持,让公司结合历史数据,向正确的方向发展。大数据技术主要分为两大类:大数据计算和大数据存储。
大数据计算主要分为离线计算和实时计算。具体使用取决于业务场景对数据输出延迟的要求
离线计算对于数据输出会有一定的时间延迟,可以是15分钟,也可以是几小时,也可以是几天。离线任务一般是对数据进行全局批量计算,这次就完成了。与实时计算不同,除非您自己停止实时任务,否则实时程序将始终运行。
实时计算数据是不断生成的,数据输出的延迟通常很低,最多几秒钟。比如我们的大数据屏,实时数据流处理等。,这些场景对数据输出延迟的要求很低。
离线计算,一般对数据输出延迟没有那么高的要求,只要最后输出数据,具体使用很多公司的离线业务报表。目前大部分公司的离线计算引擎都是使用Hive或者Spark,而实时计算引擎主要是Flink。
大数据存储需要分布式数据存储,单台机器无法存储这么多海量数据
在传统的关系数据库中,当一个表非常大的时候,会利用数据库和表的技术将它分布存储在不同的机器上。开源工具TDDL可以用于数据库和表分离技术。
在非关系型NoSQL数据库中,可以选择HDFS作为最低的文件存储系统。HDFS文件系统以块的形式存储文件,一个块的大小为128兆字节,每个块将存储三个副本,这样数据就可以以容灾的方式存储。即使一个数据块损坏,也可以选择其他数据块进行数据恢复。
分布式数据库系统可以横向和纵向划分数据表。例如,在HBase数据库中,区域用于水平分区,列族用于垂直分区。
分布式数据存储技术需要不同的机器协同工作,每台机器存储整个数据的一个子集。在未来的大数据时代,分布式数据存储和分布式数据库肯定会被使用,这将成为大数据系统的标准。
我是Lake,专注于大数据技术原理,人工智能,数据库技术,程序员经验分享。如果我的问答对你有帮助,希望你能夸奖我,关注我。谢谢你。