云端部署大数据服务的几种实现方式

作者:崔远智    2017.3.27

伴随着大数据服务/应用的日益增多和普及,如何在云端部署大数据服务/应用,保证其性能及稳定性,是摆在我们面前的一个急迫问题。 本文,结合作者的工作经验,从系统架构层面,介绍了目前大数据平台在云端部署的几种常用形态。

从最为常用的Hadoop和最坑爹的HDFS说起

Apache Hadoop是我们在大数据服务中最为常用的分布式离线分析框架。实际上它不是一个独立产品,而是一些独立模块的组合, 包括一个分布式文件系统HDFS、一个分布式数据库HBase、一个大型分布式数据处理库MapReduce,等等。 其中,要数HDFS和MapReduce这两个Hadoop的核心模块被应用的最为广泛。

HDFS:Hadoop的所有模块是构筑于一个分布式文件系统之上,它有一个很恰当的名字——Hadoop Distributed File System(即HDFS)。 就好像,目前最广为人知的分布式网络文件系统(NFS)。

<<返回主页