hdfs基本特征

hdfs是被设计在普通商用服务器运行的分布式文件系统,具有如下六大特性

大规模分布式存储

hdfs以分布式存储和良好的可拓展性提供了大规模的数据存储能力。hdfs可以分布式存储在多台商用服务器上。

运行在HDFS上的应用具有很大的数据集。HDFS上的一个典型文件大小一般都在G字节至T字节。因此,HDFS被调节 以支持大文件存储。它应该能提供整体上高的数据传输带宽,能在一个集群里扩展到数百个节点。一个单一的HDFS实例应该能支撑数以千万计的文件

高并发访问能力

hdfs以多节点并发访问方式提供很高的数据访问带宽。

强大的容错能力

hdfs采用多副本数据块存储,按照块的形式随机选择存储节点。

顺序式访问文件

hdfs对顺序读进行了优化,支持大数据量的顺序读写,代价是对随机度的性能下降。

简单的一致性模型

hdfs提供一次写入到此读取的模式,不提供对hdfs文件的修改,但是可以在文件末尾附加新数据。

数据块存储

hdfs采用基于大数据块的文件存储,默认的块大小为64mb,较少源数据存储,分布存储在不同的服务器上。