大数据开发之HDFS分布式文件存储系统详解
原标题:大数据开发之HDFS分布式文件存储系统详解
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)
Namenode
Namenode是HDFS集群主节点,负责管理整个文件系统的元数据,所有的读写请求都要经过Namenode。
元数据管理
Namenode对元数据的管理采用了三种形式:
1) 内存元数据:基于内存存储元数据,元数据比较完整
2) fsimage文件:磁盘元数据镜像文件,在NameNode工作目录中,它不包含block所在的Datanode 信息
3) edits文件:数据操作日志文件,用于衔接内存元数据和fsimage之间的操作日志,可通过日志运算出元数据
fsimage + edits = 内存元数据
注意:当客户端对hdfs中的文件进行新增或修改时,操作记录首先被记入edit日志文件,当客户端操作成功后,相应的元数据会更新到内存元数据中
可以通过hdfs的一个工具来查看edits中的信息
bin/hdfs oev -i edits -o edits.xml
查看fsimage
bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml
元数据的checkpoint(非HA模式)
Secondary Namenode每隔一段时间会检查Namenode上的fsimage和edits文件是否需要合并,如触发设置的条件就开始下载最新的fsimage和所有的edits文件到本地,并加载到内存中进行合并,然后将合并之后获得的新的fsimage上传到Namenode。checkpoint操作的触发条件主要配置参数:
dfs.namenode.checkpoint.check.period=60 #检查触发条件是否满足的频率,单位秒
dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary
dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}
#以上两个参数做checkpoint操作时,secondary namenode的本地工作目录,主要处理fsimage和edits文件的
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)
Namenode
Namenode是HDFS集群主节点,负责管理整个文件系统的元数据,所有的读写请求都要经过Namenode。
元数据管理
Namenode对元数据的管理采用了三种形式:
1) 内存元数据:基于内存存储元数据,元数据比较完整
2) fsimage文件:磁盘元数据镜像文件,在NameNode工作目录中,它不包含block所在的Datanode 信息
3) edits文件:数据操作日志文件,用于衔接内存元数据和fsimage之间的操作日志,可通过日志运算出元数据
fsimage + edits = 内存元数据
注意:当客户端对hdfs中的文件进行新增或修改时,操作记录首先被记入edit日志文件,当客户端操作成功后,相应的元数据会更新到内存元数据中
可以通过hdfs的一个工具来查看edits中的信息
bin/hdfs oev -i edits -o edits.xml
查看fsimage
bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml
元数据的checkpoint(非HA模式)
Secondary Namenode每隔一段时间会检查Namenode上的fsimage和edits文件是否需要合并,如触发设置的条件就开始下载最新的fsimage和所有的edits文件到本地,并加载到内存中进行合并,然后将合并之后获得的新的fsimage上传到Namenode。checkpoint操作的触发条件主要配置参数:
dfs.namenode.checkpoint.check.period=60 #检查触发条件是否满足的频率,单位秒
dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary
dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}
#以上两个参数做checkpoint操作时,secondary namenode的本地工作目录,主要处理fsimage和edits文件的
相关文章
-
手游怎么用自媒体做产品推广?这几个推广技巧要早知道!
-
产品思考:增长中台系统,如何提升流量利用效率
-
导演手记|《一级响应》:什么留下了,什么会被忘记
-
AI语音助手:全球三巨头争雄,国内小米和百度成赢家?
-
企业微信敏感词拦截怎么用?
-
氪友发言丨微信什么时候能内测我的产品需求?
-
中国网友成“半壁江山”:过去一年App下载量占全球50%
-
微信“对方正在输入…...”背后,有一段互联网秘史
-
这9款APP不要用!“静默偷拍”已成它们窃取用户隐私的新手段
-
在商业组织中,设计师如何主导频道改版?
-
【钛晨报】负面信息击倒美国科技股,FAANG总市值损失了一个苹果
-
字节跳动社交APP飞聊上线凌晨遭微信全面封杀
-
年还没过完脉脉就完?官方回应下架原因:版本升级近期恢复
-
趣头条能脱掉"土味"上"台面"吗?
-
百度在搜索上的对手不止是搜狗,还有微信、淘宝和今日头条
-
工信部突然宣布这个消息!移动措手不及,网友却纷纷拍手叫好
-
【董明珠:格力不依靠美国技术,而且部分专利还出口了】
-
面对这波寒潮蔚来、特斯拉和小鹏们谁更能抗?
-
1100家企业角逐,分秒帧入选腾讯SaaS加速器第三期TOP45席位
-
微信官方宣布已支持修改微信号每年可以修改一次
-
90后成了相亲主力军,万亿婚恋下半场才刚开始
-
腾讯两个月推七款社交频推新品扩展社交版图
-
TCL展示折叠屏手机;VIVO空间无限充电;5G爆新漏洞
-
智东西周报:马化腾谈华为事件联想称美国再加税或把生产线搬离中国车载微信年内推出
-
全联网发展与应用高峰论坛在京举办
-
All In智能驾驶的时代,却是汽车后市场的凛冬?
-
阿里组织架构调整,和腾讯的B端之战或将白热化
-
比起超大屏,你的手机可能更需要这个功能
-
二手车平台又开撕!优信称瓜子二手车数据造假瓜子回怼:希望你走正途