目前常见的组件主要有:MapReduce、Hive、Spark、 Maxcompute 等组件。
1.MapReduce
一种计算模型,用于处理大数据量的计算。其中 Map 对应数 据集上的独立元素进行指定的操作,生成键-值对形式的中 间结果,Reduce 则对中间结果中相同的键的所有值进行规 约,以得到最终结果。

2.Hive
定义了一种类似 sql 的查询语言(hql)将 sql 转化为 Mapreduce、Spark 等引擎任务在 Hadoop 上执行。
3.Spark
开源的数据分析集群计算框架,用于构建大规模,延迟低的 数据分析应用。 Spark 采用 Scala 语言实现和应用框架,采用基于内存的分 布式数据集,优化了迭代式的工作负载以及交互式查询。