大数据开发之HDFS分布式文件存储系统详解
原标题:大数据开发之HDFS分布式文件存储系统详解
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)
Namenode
Namenode是HDFS集群主节点,负责管理整个文件系统的元数据,所有的读写请求都要经过Namenode。
元数据管理
Namenode对元数据的管理采用了三种形式:
1) 内存元数据:基于内存存储元数据,元数据比较完整
2) fsimage文件:磁盘元数据镜像文件,在NameNode工作目录中,它不包含block所在的Datanode 信息
3) edits文件:数据操作日志文件,用于衔接内存元数据和fsimage之间的操作日志,可通过日志运算出元数据
fsimage + edits = 内存元数据
注意:当客户端对hdfs中的文件进行新增或修改时,操作记录首先被记入edit日志文件,当客户端操作成功后,相应的元数据会更新到内存元数据中
可以通过hdfs的一个工具来查看edits中的信息
bin/hdfs oev -i edits -o edits.xml
查看fsimage
bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml
元数据的checkpoint(非HA模式)
Secondary Namenode每隔一段时间会检查Namenode上的fsimage和edits文件是否需要合并,如触发设置的条件就开始下载最新的fsimage和所有的edits文件到本地,并加载到内存中进行合并,然后将合并之后获得的新的fsimage上传到Namenode。checkpoint操作的触发条件主要配置参数:
dfs.namenode.checkpoint.check.period=60 #检查触发条件是否满足的频率,单位秒
dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary
dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}
#以上两个参数做checkpoint操作时,secondary namenode的本地工作目录,主要处理fsimage和edits文件的
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)
Namenode
Namenode是HDFS集群主节点,负责管理整个文件系统的元数据,所有的读写请求都要经过Namenode。
元数据管理
Namenode对元数据的管理采用了三种形式:
1) 内存元数据:基于内存存储元数据,元数据比较完整
2) fsimage文件:磁盘元数据镜像文件,在NameNode工作目录中,它不包含block所在的Datanode 信息
3) edits文件:数据操作日志文件,用于衔接内存元数据和fsimage之间的操作日志,可通过日志运算出元数据
fsimage + edits = 内存元数据
注意:当客户端对hdfs中的文件进行新增或修改时,操作记录首先被记入edit日志文件,当客户端操作成功后,相应的元数据会更新到内存元数据中
可以通过hdfs的一个工具来查看edits中的信息
bin/hdfs oev -i edits -o edits.xml
查看fsimage
bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml
元数据的checkpoint(非HA模式)
Secondary Namenode每隔一段时间会检查Namenode上的fsimage和edits文件是否需要合并,如触发设置的条件就开始下载最新的fsimage和所有的edits文件到本地,并加载到内存中进行合并,然后将合并之后获得的新的fsimage上传到Namenode。checkpoint操作的触发条件主要配置参数:
dfs.namenode.checkpoint.check.period=60 #检查触发条件是否满足的频率,单位秒
dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary
dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}
#以上两个参数做checkpoint操作时,secondary namenode的本地工作目录,主要处理fsimage和edits文件的
相关文章
-
兵役登记操作方法(附流程步骤图解)
-
iPhone14配置和价格曝光,却坐实了“十三香”,苹果又要涨价了?
-
【早Talk】BT天堂站长获刑3年;巴菲特损失28亿
-
助老打车暖心车站落地杭州,帮助老年人扫码一键叫车
-
苹果将推高端三摄iPhone 二代XR升级双摄
-
多吃聪明药等于吸毒;应用宝封禁多闪;派遣人类定居月球
-
苹果手机怎么弄字幕(苹果手机隐藏式字幕怎么用)
-
苹果11支持多少w无线充电
-
Canalys:欧洲智能手机市场增长了8%,小米增长73%
-
智能图形计算前沿进展与应用讲习班11月17日杭州举办
-
315晚会曝光的机器人骚扰电话,有哪些小技巧可以避免骚扰电话?
-
画质游戏都要京东方将推4K240Hz面板
-
网易云音乐确认暂缓上市,8月1日已通过IPO聆讯
-
知名程序员BradFitzpatrick离职谷歌,告别Go语言团队
-
解读:新餐饮品牌及运营方法论
-
【钛晨报】美团app迎来重要人事调整;宝马因销量造假被美国SEC调查;Uber联合创始人卡兰尼克将退出董事会
-
为企业接入一站式消费生态,「酷屏信科」要做2B2C消费场景生态圈
-
苹果官网下架iPhone X 却上架多款保护壳
-
社交产品系列:社区类产品迭代设计
-
四大云巨头:微软亚马逊市值万亿美元,谷歌阿里能否突破?
-
产品小白须知:如何用原型体现你的专业度?
-
硅谷早知道S4E26|对,我们又和开发者聊了聊今年的WWDC
-
用户到底需要怎样的SD-WAN
-
百度知道创变之道:坚守价值供给,拥抱年轻用户
-
vivoy93在哪设置应用权限
-
【金桔兔】抖音受大家喜欢的账号类型
-
华为P50系列发布,惊叹之余,别忘手机网站对企业的重要性
-
海外直播丨“重庆@海外友城”庆虎年迎新春
-
一个山东小镇的新零售:从月入几十到30万元