hdfs基本特征¶
hdfs是被设计在普通商用服务器运行的分布式文件系统,具有如下六大特性
大规模分布式存储¶
hdfs以分布式存储和良好的可拓展性提供了大规模的数据存储能力。hdfs可以分布式存储在多台商用服务器上。
运行在HDFS上的应用具有很大的数据集。HDFS上的一个典型文件大小一般都在G字节至T字节。因此,HDFS被调节 以支持大文件存储。它应该能提供整体上高的数据传输带宽,能在一个集群里扩展到数百个节点。一个单一的HDFS实例应该能支撑数以千万计的文件
高并发访问能力¶
hdfs以多节点并发访问方式提供很高的数据访问带宽。
强大的容错能力¶
hdfs采用多副本数据块存储,按照块的形式随机选择存储节点。
顺序式访问文件¶
hdfs对顺序读进行了优化,支持大数据量的顺序读写,代价是对随机度的性能下降。
简单的一致性模型¶
hdfs提供一次写入到此读取的模式,不提供对hdfs文件的修改,但是可以在文件末尾附加新数据。
数据块存储¶
hdfs采用基于大数据块的文件存储,默认的块大小为64mb,较少源数据存储,分布存储在不同的服务器上。