对
为了避免单点故障问题,HDFS一般采用HA集群的方式部署,典型的HDFSHA场景为主备两个NameNode方式运行,一个处于Active状态,另一个处于Standby状态,一旦主NameNode出现故障,可以迅速切换至备NameNode,从而不间断对外提供服务。
2.NameNode之间通过一组JournalNode同步元数据信息,实现Active和Standby两个NameNode的元数据信息同步。
[ 三:HDFS原理 ]
在HDFS内部,一个文件分成一个或多个“数据块”,这些“数据块”存储在DataNode集合里,NameNode负责保存和管理所有的HDFS元数据。客户端连接到NameNode,执行文件系统的“命名空间”操作,例如打开、关闭、重命名文件和目录,同时决定“数据块”到具体DataNode节点的映射。DataNode在NameNode的指挥下进行“数据块”的创建、删除和复制。客户端连接到DataNode,执行读写数据块操作。[ 四:HDFS数据节点硬盘故障案例 ]
HDFS高可用集群中单数据节点datanode挂掉,不影响整个集群业务运行,更换硬盘属于高危操作,更换前需要将其他业务迁出。收到hadoop数据节点Datanode进程停掉的告警信息。
登录集群管理节点,切换到故障节点,进入hadoop日志目录查看datanode日志详情,根据日志定位故障硬盘位置。
单点故障(single point of failure),从英文字面上可以看到是单个点发生的故障,通常应用于计算机系统及网络。实际指的是单个点发生故障的时候会波及到整个系统或者网络,从而导致整个系统或者网络的瘫痪。这也是在设计IT基础设施时应避免的。