离线计算引擎常见的组件有哪些？主要能力是什么？

标签

最佳答案由匿名用户编辑于2023/01/17 10:36

目前常见的组件主要有：MapReduce、Hive、Spark、 Maxcompute 等组件。

1.MapReduce

一种计算模型，用于处理大数据量的计算。其中 Map 对应数据集上的独立元素进行指定的操作，生成键－值对形式的中间结果，Reduce 则对中间结果中相同的键的所有值进行规约，以得到最终结果。

定义了一种类似 sql 的查询语言（hql）将 sql 转化为 Mapreduce、Spark 等引擎任务在 Hadoop 上执行。

开源的数据分析集群计算框架，用于构建大规模，延迟低的数据分析应用。 Spark 采用 Scala 语言实现和应用框架，采用基于内存的分布式数据集，优化了迭代式的工作负载以及交互式查询。

参考报告

金融业数据应用发展报告（2021~2022）据国际数据公司IDC预测，2025中国数据量将高达48.6ZB，占全球数据总量175ZB的27.8%，数字化时代已然到来。数据已发展成为当今社会重要的生产要素和战略资产，以数据为核心的数字技术成为驱动技术革命和经济社会发展的新动能。

查看详情

我来回答

快速提问

海量报告支持，行业专家解读

海量文库支持，行业专家解答

用户解答榜