发布时间:2012-8-14
随着非结构化数据的爆炸,分布式文件系统进入了发展的黄金时期,从高性能计算到数据中心,从数据共享到互联网应用,已经渗透到数据应用的各方各面。对于大多数分布式文件系统(或集群文件系统,或并行文件系统)而言,通常将元数据与数据两者独立开来,即控制流与数据流进行分离,从而获得更高的系统扩展性和I/O并发性。因而,元数据管理模型显得至关重要,直接影响到系统的扩展性、性能、可靠性和稳定性等。存储系统要具有很高的Scale-Out特性,最大的挑战之一就是记录数据逻辑与物理位置的映像关系即数据元数据,还包括诸如属性和访问权限等信息。特别是对于海量小文件的应用,元数据问题是个非常大的挑战。总体来说,分布式文件系统的元数据管理方式大致可以分为三种模型,即集中式元数据服务模型、分布式元数据服务模型和无元数据服务模型。在学术界和工业界,这三种模型一直存在争议,各有优势和不足之处,实际系统实现中也难分优劣。实际上,设计出一个能够适用各种数据应用负载的通用分布式文件系统,这种想法本来就是不现实的。从这个意义上看,这三种元数据服务模型都有各自存在的理由,至少是在它适用的数据存储应用领域之内。集中式元数据服务模型分布下页