行业概述
近年来,随着网络技术的快速发展和网络基础设施的不断完善,各种基于互联网的应用层出不究。人们中不出户就可以享受到丰富的娱乐、购物、交友。相对于传统方式,这不仅给人们的生活带来更大的便利,也带来了前所未有的体验。据中国互联网信息中心权威统计,截至 2011 年 12 月底,中国网民数量达到 5.13 亿。庞大的用户群体产生了更旺盛的需求,和技术进步一起推动互联网保持高速发展。
互联网应用大量的数据是网页、图片、文字、文档、音频、视频等非结构化数据。绝大部分互联网应用的文件存储部分都符合一次性写入,多次读取的数据访问模式。互联网特有的应用模式要求存储系统具有高度共享、大容量、高并发性能、高可用、在线扩容和软件升级以及简易管理等特性。
常见的DAS、NAS、SAN存储系统在互联网行业中都有较多应用,但一般的NAS和SAN架构存储系统无法胜任互联网行业管理海量数据的要求。随着存储技术的发展和互联网应用的促进,集群存储系统具备良好的扩展性,可以管理海量数据并满足高并发下的聚合处理能力的要求。如果针对某些应用进行适当的调节,可以满足互联网企业几乎全部应用的要求。
方案架构
互联网应用中的数据可心笼统地归为结构化数据、非结构化数据和半结构化数据。结构化数据如用户信息,交易信息和物品的描述信息等一般存放在MySQL数据库,甚至是Oracle RAC数据库集群中。非结构化的数据,如图片、音视频等均以文件形式直接存储在集群文件系统中。某些可以归为使用关键字进行操作的数据,即key-value类型的数据保存在半结构化存储系统中。这些数据包括短小的文本内容,采用URL索引的网页数据等。由于几乎所有的应用都需要存储非结构化的数据,而且某些应用文件数量和尺寸都很大,全系统对于文件存储的要求很高。
上图是大型互联网企业的服务结构,它分为存储,服务和缓存三层,每一层次都可以按需访问下一层的数据。存储层对外提供数据库存储、key-value存储和文件系统三类存储形式,上层的各种应用共享所有这些存储子系统。其中所有的文件均可直接存储在ParaStor并行存储系统中。服务层运行在一组Web Server上,对外提供静态和动态的数据访问服务。一种应用可以运行在若干台Web Server组成的负载均衡集群上。缓存层缓存静态数据,如图片、静态页面、音视频文件等。
用户的请求通过全局智能DNS负载平衡后,找到一个最近的缓存服务器并向它发出请求。如果数据是静态的且已经被缓存,缓存服务器直接应答,否则将请求直接转发给Web Server。Web Server将动态数据请求的应答直接发给客户端,静态数据则发给缓存服务器保存。
方案优势
目前ParaStor可以管理到百亿级的文件,生产系统中已经部署了十几PB的系统。相对于过去的文件存储,有如下优势:
可以有效地整合多种规模相对较小的应用。ParaStor可以将虚拟化的文件存储池灵活地划分成多个逻辑卷,分配给不同应用使用。增加新的应用或者应用存储需求扩大均可在同一存储池中动态满足,无须复杂规划。
支撑单一高容量和高性能要求的应用。ParaStor针对互联网应用中海量小文件管理和高聚合带宽要求优化。根据需求配置专门型号的存储系统,并进行针对性的设置,可以满足高IOPS和高带宽苛刻要求。
简易管理。ParaStor通过应用聚集减少了企业中所需的存储系统数目,并且对于存储监控、维护、扩容等工作限制在存储系统本身。ParaStor提供的图形化、面向运维设计的管理工具大大简化了管理员的工作流程。
应用服务器接入数据不再受限。ParaStor提供足够多的以太网络接口,允许成千上万的应用服务器接入单套存储系统。
扩容成本低。ParaStor存储系统只需要将新的存储控制器接入系统即可实现扩容。新增容量的成本和初始安装是一致的,扩容操作简单,节省维护成本。