摘要
本白皮书是Lenovo S2200存储产品的技术白皮书。书中详细介绍了产品硬件架构和软件架构的实现原理,帮助技术人员更深入的了解S2200存储产品的技术原理。
Lenovo 确信本出版物在发布之日内容准确无误。如有更改,恕不另行通知。Lenovo 对本出版物的内容不提供任何形式的陈述或担保,明确拒绝对有特定目的的适销性或适用性进行默示担保。
目录
1. 概述 3
2. 技术特点 4
2.1 控制器架构 4
2.2 硬件RAID处理单元 4
2.3 独立的存储控制器与管理控制器设计 6
2.4 独立的控制缓存与数据缓存设计 6
2.5 业界最新的复合硬件接口技术 7
2.6 基于SAS2.0 技术的后端磁盘扩展连接 7
2.7 存储容量的动态调整功能 8
2.7.1在线RAID扩展 8
2.7.2逻辑卷(LU)容量的扩展 10
2.8 全局热备盘技术 10
2.9 Simulcache高效的写镜像技术 11
2.10 Drive Spindown节能技术 12
2.11 EcoStor绿色环保技术 13
3. 其它技术特点 13
3.1 高可靠的7×24运行保障 14
3.2 支持I/O通道故障切换软件 14
3.3 简便的图形化存储系统管理软件 15
3.4 基于存储控制器的数据复制软件 15
3.4.1本地数据卷快照 15
3.4.2本地数据卷复制 15
3.4.3系统间数据镜像 16
4. 结语 16
1. 概述
大数据时代,海量数据的爆炸增长、应用需求日益多样、存储架构日趋复杂,是目前大部分IT系统普遍面临的挑战,并且满足业务对系统的高可用性、高可靠性、强扩展性等诸多需求。Lenovo S2200存储产品,是联想面向企业级客户推出的新一代磁盘存储系统,以模块化的架构、经济高效地设计为各种关键业务构建信息基础平台,能够支持新一代高速主机连接。
Lenovo S3200/S2200采用业界最先进的硬件架构理念,所有对外接口只需要更换SFP模块即可,不需要额外更换控制器,把真正的选择权交给客户。为了提高存储性能,更好地发挥内存交换架构的技术优势,Lenovo S3200/S2200的控制器设计采用相互独立的控制缓存和数据缓存
S3200每控制器提供4个主机接口,可以根据客户需求选择插入16Gb/8Gb FC SFP或者10Gb/1Gb iSCSI SFP,也可以按用户需求插入不同的SFP,达到混合对外接口,最大可支持可多达192块磁盘。S2200每控制器提供2个主机接口,可以根据客户需求选择插入8Gb FC SFP或者1Gb iSCSI SFP,最大可支持96块磁盘。Lenovo S3200/S2200有2种机箱配置。在2U12的机箱空间内容纳12块3.5”的NL-SAS硬盘;在2U24的机箱空间内容纳24块2.5” 的SSD/SAS硬盘。
Lenovo S3200/S2200 系列产品服务日益增长的FC/iSCSI SAN市场,允许客户更容易地创建他们自己的基于以太网的SAN。这些强大的存储系统是可扩展的,错误冗余的,高性能的,并且容易管理。随着他们的高性能和高容量,Lenovo S3200/S2200被使用在虚拟化存储,文件系统,Share Point, MS Exchange, MS SQL等应用中。
1. 技术特点
2.1 控制器架构
相对于Active-Active架构,S2200是一种更先进的Asymmetric Logical Unit Access (ALUA)架构的存储系统。同时,它使用了Unified LUN Presentation (ULP)的技术。
这种概念使用T10技术委员会的ALUA扩展,SPC-3指令,可以通过2个控制器上的每一个端口,把所有的LUN都呈献给主机。ULP显示给主机一台active-active的存储,主机不用考虑vdisk/LUN的属主控制器就能选择任意一条存在的path去访问这个LUN。 另外,在系统里只有一个LUN的命名空间(0-255),对2个控制器来讲同一个LUN只有一个WWNN,任何控制器都可以使用还没用过的LUN编号。同时,根据ALUA规范,ULP可以识别哪条路径是“首选的”,在这条路径上的性能会稍好于其他路径。在ULP概念下依旧是vdisk的所有权,尽管这个‘所有权’对主机系统是透明的,属主控制器总是来处理disk的I/O。ULP保留了raid和disk的fw完整性,不会影响他们的后台操作。
2.2 硬件RAID处理单元
一般磁盘存储系统的控制器采用的是内部共享总线结构,CPU是整个控制器的核心,缓存、前端接口、后端接口通过共享的总线进行数据交换。
与传统共享总线结构不同,在S2200的控制器采用了交换架构,这种交换架构是通过一个专用的大规模集成电路——RAID处理单元(RAID Companion FPGA)实现。该RAID处理单元采用的是2nd Mouse部件,是整个控制器的核心运算单元,而CPU只是用来对数据I/O处理进行管理及协调。
S3200和S2200的该单元的系统结构分别如下图:
RAID Companion ASIC
Mangy Mouse是比上一代SureSAS112产品更高性能的第三代高性能RAID内存控制器,它带来了一套新的接口和特性。写cache镜像,通过专有的PCIE通道写广播,不需要额外的系统总线带宽,透明并同步于memory写。在电源失效时,作为无期限的备份,写cache被保留在Flash里。从上图中可以看到缓存、前端主机接口和后端磁盘通道都是以交换的方式进行数据传输。并且在两个控制器的RAID处理单元之间通过双通路1GB/s的PCI- Express链路实现数据交换,通过这条链路可实现两个控制器写I/O的镜像操作等。
业界的其它中低端存储产品,在控制器架构设计中,较多使用CPU运行控制器FW处理RAID运算,并利用CPU内嵌的XOR引擎加速RAID处理功能。S3200/S2200基于专用硬件RAID处理单元的架构是其产品性能可领先其它中低端磁盘存储产品的关键保障。
S3200/S2200采用65nm工艺的ASIC芯片,是存储系统的核心部分,为各子系统之间提供了高带宽的数据连结。它主要包含RAID 引擎 --- 负责数据XOR,支持各种RAID运算;还包含了DMA引擎 ---负责数据的卸载和加速。它还集成了一颗ARM 400MHz的CPU,用于初始化、训练和诊断ASIC的端口/接口/cache。集成的ARM CPU是该ASIC设计的一个亮点,减少了Intel CPU的工作量,使SC子系统的反应更快,提高存储系统的性能。
并且下文介绍的管理控制器系统(ARM 400MHz的CPU),也集成在该ASIC芯片里。
2.1 独立的存储控制器与管理控制器设计
MC 管理控制器。该处理器位于控制器模块中,负责人与计算机接口功能以及计算机与计算机接口功能,比如GUI,CLI的交互,并与 SC 进行交互。MC采用的是ARM 400MHz的CPU 微处理器,附带64MB的内存。
SC 存储控制器。该处理器位于控制器模块中,负责处理与IO调度相关的命令。SC 也称为 RAID 控制器。存储控制器子系统主要负责它由一颗Intel Sandy Bridge家族1.3GHz/800MHz的CPU 、Intel PCH(Cave Creek芯片组)、2GB的内存、flash等组成。
2.2 独立的控制缓存与数据缓存设计
为了更好地发挥交换架构的技术优势,S3200/S2200的控制器设计独立的控制缓存和数据缓存:
l 控制缓存只用于控制器软件的运行,包括FW运行的开销、I/O读写的调度的开销和基于控制器的各种功能软件(如数据快照)运行的开销;
l 数据缓存只用于存储系统的I/0操作的数据暂存。
这样的架构设计可以概括为:专项缓存专项用途。
每个控制器配置2GB的控制缓存,而数据缓存配置为4GB。
业界的其它中低端存储产品,在控制器架构设计中,缓存部分的设计参考通用IA架构服务器的设计:即配置单一的物理缓存,再逻辑分配为用于控制器运行的控制缓存和用于数据读写的数据缓存。这种设计的劣势在于,每个系统配置的最大缓存容量并没有百分之百地用于数据读写,有部分缓存容量被预留给控制器的软件运行,运行的软件越多(如开起快照、镜像等功能)所占用的控制缓存就越多,所剩的数据缓存就越小。
相比业界的其它中低端存储产品,S3200/S2200的独立式控制缓存与数据缓存设计,可以充分保障控制器拥有足够的数据缓存,并且也不会降低控制器的运行效率。
2.3 业界最新的复合硬件接口技术
S3200/S2200采用了全新的复合硬件接口技术,使用了业界最新的通用硬件接口技术,用户只需要更换不同的SFP模块即可实现更改成不同协议的对外接口。S3200还可以实现对外接口的混合使用,同样只需要更换SFP模块即可。S3200/S2200轻松帮助用户减少为未来存储使用环境发生更改而资金付出。
2.4 基于SAS2.0 技术的后端磁盘扩展连接
S3200/S2200的全新存储架构设计中,前后端采用点到点的设计,即前端为基于FC/iSCSI统一技术的点到点、后端为基于SAS技术的点到点的高性能通路设计,彻底消除了以往中低端存储后端只能采用FC Loop时多个磁盘并发I/O抢占数据传输带宽的问题。
早在1997年,利用开放性的优势,FC-AL得到了众多存储厂商的拥护,在中、高端存储产品上得到广泛应用。但对于磁盘存储系统内部的互连来说,硬盘驱动器的所谓“FC”,其实是FC-AL(Fibre Channel Arbitrated Loop,光纤通道仲裁环路),连接成一个闭合的环路。一个仲裁环理论上可以连接127个设备,但受制于带宽,容纳的磁盘驱动器通常不到这个数字的一半。为此,各个厂商都在磁盘存储系统的控制器的通过增加后端磁盘扩展端口提升扩展能力和磁盘性能,即使这样也不能显著消除单一仲裁环中多个磁盘并发I/O抢占数据传输带宽的问题。
为了从根本上突破磁盘存储中的扩展和性能的瓶颈,存储行业的领先厂商联合研发被称为串行连接SCSI即SAS(Serial Attached SCSI的缩写)的技术。SAS与FC光纤通道相比,最明显的技术优势在于连接带宽:
更高的数据传输带宽:当前技术条件下,通过×4的链路聚合技术(即一条物理的SAS线缆中存在4条全双工的数据传输线路),两个SAS端口之间的连接带宽达到24Gb。而基于当前的FC技术,两个设备之间的带宽只有4Gb,即使在下一代的FC技术中,也只有8Gb,在后端的磁盘扩展应用中,SAS所能提供的连接带宽4倍于FC技术;
更强的设备扩展能力:通过类似交换机的扩展器(Expander),SAS实现了点对点的扩展,每个设备通过SAS端口最多可以直接连接128个设备,透过扩展器技术最多可连接16256个设备,这样的设备点对点、全双工、多数量的设备扩展能力,显著优于FC技术;
SAS技术的应用也使得存储系统在实现分级存储过程中可以简化系统设计:传统的存储系统,为实现分级存储,通常支持FC和SATA两种不同定位的硬盘,由于FC与SATA的不兼容,就必须在SATA硬盘后端安装FC-SATA的转接器,提高了系统设计复杂度,而基于SAS的应用则彻底解决了这一问题:用SSD,SAS,NL-SAS不同类型的硬盘实现分级存储。
充分发挥SAS技术的优越性,S3200/S2200的后端磁盘扩展连接获得领先优势。
2.5 存储容量的动态调整功能
S3200/S2200可支持更多的磁盘进而可提供更大容量、支持更多应用,这对于系统管理与维护也提出新的挑战:存储系统应满足应用不断增长的需要可动态调整存储容量的分配。系统管理员通常根据对应用的预估为应用分配存储空间,并未来的业务增长预留存储空间。即使这样,应用上线运行一段时期,仍然可能遇到存储空间不足的问题,这就需要存储系统能够动态地对存储容量做出调整。S3200/S2200不仅在硬件扩充上非常容易,而且在容量管理上也非常灵活,可以实现在线的RAID扩展,也可以实现逻辑单元(LU)的在线扩展。
2.7.1在线RAID扩展
S3200/S2200允许用户在线向RAID中增加新磁盘。
一般来说,当存储系统完成初始化部署后,磁盘会被分组建成不同的RAID,应用上线后,这些RAID设定很难再进行更改,如增加新的磁盘到RAID中,因为增加新磁盘需要完成数据的重新条带写入,对数据安全和读写性能都是挑战。S3200/S2200凭借先进的系统架构设计彻底解决了这个问题。
以下图为例:如用户采用了5块磁盘实现3D+2P的RAID 6,因为容量或性能的原因增加新的磁盘,S3200/S2200的“在线RAID扩展(Online RAID Group Expansion)”功能可以将新增加的3块磁盘加入原有RAID中,使原RAID6的3D+2P改变为6P+2P,并完成RAID重新条带写入,即数据被重新条带化打散分配到更多的磁盘中,获得容量提升的同时,性能也得到显著提升。
进行在线RAID扩展前后的数据条带写入情况如下图所示:
2.7.2逻辑卷(LU)容量的扩展
S3200/S2200可以自由实现逻辑卷(LU)的容量增长,如下图:
2.1 全局热备盘技术
RAID 6、RAID 5和RAID 0+1等RAID级别具有冗余数据保存,能够保证在RAID中有磁盘发生故障时数据不丢失。为了保证数据安全,存储系统厂商通常都支持动态热备盘技术。使用动态热备盘技术,在RAID中有1颗磁盘发生故障时,可以在对系统性能影响比较小的前提下恢复损坏磁盘上的数据。
图:动态热备盘技术
如上图所示,在某个时刻RAID中的一颗磁盘发生错误的数量超过系统定义的错误日志指标后,S3200/S2200的系统微码自动启动动态热备盘,将存在错误的磁盘上的数据复制到全局动态备盘上。在这个过程中不需要通过其它磁盘上的数据进行XOR计算,因此整个RAID 5磁盘组的性能影响降低到最低。在完成动态热备盘复制后并对错误磁盘更换后,数据将从动态热备盘上拷贝回新更换的磁盘上,同样也不用进行XOR计算。当错误磁盘不能够进行读写操作时,S3200/S2200的系统微码不能进行动态热备盘操作,此时系统会通过Correction Copy的方法进行数据恢复,如下图所示:
图:Correction Copy操作
可以看到,虽然在进行Correction Copy时服务器依然可以进行正常的大I/O操作,但是由于RAID 5中的所有磁盘都要参与XOR计算因此性能会降低。S3200/S2200在微码中对磁盘错误监测有非常严格的要求,在磁盘只有非常微小的错误时就会启动动态热备盘。因此S3200/S2200所用磁盘的品质要求也是非常苛刻的。
2.1 Simulcache高效的写镜像技术
传统的cache镜像的技术一般有下面几个步骤:
而simulcache使用下图的方式来同步cache:
由此看出,Simulcache这种技术,使用了一条专有的、高性能低延迟的PCIE内部连接来进行控制器间cache数据的镜像。这样,各控制器上的处理器不再参与镜像的操作。在PCIE总线中往返移动的数量保持到绝对的极小值。和disk的内部连接通道不再使用,因此这个连接通道完全用来disk的读写。据实际测算,采用了simulcache的写cache效率相当于没有写cache时候的92%,可以看出,在保护数据的同时效率并没有降低。
2.1 Drive Spindown节能技术
使用该技术可节省20%的电能成本。一般有以下2种使用方式:
Drive Spindown
使用简单的基于web的管理界面设置,不再工作的硬盘驱动器可被用户指定为spindown
Scheduled spin down
当在用户指定的时间内需要交付最大的性能时,可以把spindown功能挂起暂停。
2.1 EcoStor绿色环保技术
EcoStor使用基于大容量电容技术来替换存储系统的电池,来保护断电时RAID控制器的cache。在每个控制器模块里的大电容包和高密flash卡给终端用户提供了无限的cache备份时间。在电源断电时,大电容包提供电能,把写cache里的没有写下的数据拷贝到高密flash卡里。在电源恢复后,高密flash卡里的没有写下的数据还原到cache中。
使用EcoStor技术的优势:
l 消除了电池的使用和处理,减少对环境的影响;
l 减少了管理成本,不需要跟踪电池的使用状态,不需要为电池备货;
l 减少了宕机时间,不需要人员和时间的成本来恢复数据,不会因为电池更换期间而对性能产生影响;
l 相对于电池2到3年的使用时间电容和flash可以长达10年的使用时间。
1. 其它技术特点
除上述领先技术应用外,S3200/S2200磁盘存储系统也兼具业界主流中高端磁盘存储系统所具备的关键技术特征:
3.1 高可靠的7×24运行保障
存储系统作为IT系统的核心硬件平台,它的可靠性直接决定应用系统的可靠性,S3200/S2200产品通过多项关键设计提升系统的高可靠性:
l 控制器、磁盘链路、电源、冷却模块等关键硬件均为冗余配置以消除单点故障风险;
l 冗余控制器支持透明的故障切换,以及控制器间的缓存镜功能,可确保对数据的不中断访问;
l EcoStor掉电保护模块可消除系统意外断电对缓存数据的威胁;
3.2 支持I/O通道故障切换软件
除了实现存储端得硬件冗余配置,S3200/S2200产品通过对I/O通道故障切换,提升数据的可持续访问。
单纯的硬件技术是不能提供对整个I/O系统的端到端的保护的,服务器到存储系统的整个I/O路径中若发生故障,例如:HBA失效、FC交换设备故障、连接电缆断开等,都会中断服务器对数据的访问……
通过OS自带MPIO软件/功能对服务器到存储的冗余I/O通道的管理,提供服务器到存储系统的I/O通道负载平衡和故障切换功能,提升服务器对存储系统的数据可访问性。
这些软件/功能可以:
l 在SAN环境中能够对服务器到存储的路径的自动发现,这种自动发现无论是直连的DAS结构还是复杂的SAN结构都可以自动完成或通过简单的配置完成。
l 支持多条I/O通道的动态负载均衡,提升服务器对应用数据的访问性能,进而有效改善应用系统的性能;
l 支持I/O通道的自动故障切换和恢复回切,提高服务器对数据访问的连续性,进而提升业务的连续性;
3.3 简便的图形化存储系统管理软件
RAIDar 是一种基于 Web 的应用程序,用于配置、监视和管理存储系统。
存储系统中的每个控制器模块均包含一个 Web 服务器,在登录到 RAIDar时您需要访问此服务器。在双控制器系统中,可以通过任一控制器访问所有功能。如果某一控制器不可用,您仍然可以通过另一控制器继续管理存储系统。
RAIDar也称为 Web 浏览器界面 (WBI)。支持多种语言包括间繁体中文等。
在主机端不需要安装任何软件,用标准的浏览器就可访问WBI。省略了各种OS下存储管理软件的安装和购买成本。
3.4 基于存储控制器的数据复制软件
为更好的保护数据安全、挖掘信息价值,S3200/S2200产品提供基于存储控制器的复制软件功能,包括:
3.4.1本地数据卷快照
S3200/S2200产品的管理软件中可配置基于存储控制器运行的本地数据卷快照软件Assuredsnap。该软件功能可获得指定数据卷的完全可用的逻辑拷贝,该拷贝包括相应数据在某个时间点(拷贝开始的时间点)的映像。
S3200/S2200产品中数据快照的具体实现是:采用即写即复制(copy-on-write)设计,创建一个卷基于时间点的逻辑映像,创建过程几乎瞬间完成。
本地数据卷快照具有瞬间可实现备份与恢复、占用空间少的优势,但是它的存在会依附于生产数据。该功能适合对各类生产系统做在线的数据备份与恢复。
3.4.2本地数据卷复制
S3200/S2200产品的管理软件中可配置基于存储控制器运行的本地数据卷复制软件Assuredcopy。
该软件功能可获得指定数据卷的完全可用的物理复制,该物理复制与源数据无论是占用的存储空间还是数据结构、数据属性等都完全一致,因此也称为是对源数据的“克隆(Clone)”
S3200/S2200产品中数据复制的具体实现是:采用精确到底层数据位的1对1的物理复制,所生成的物理副本完全可用。
本地数据卷复制获得的物理复制卷虽然消耗与源数据卷相同的存储空间,但是物理复制卷完全独立于源数据卷,对物理复制卷所做的任何访问都不会对源数据卷造成读写压力,更不会危及源数据卷的安全。该功能适合对业务数据生成副本用于业务系统的开发测试或数据挖掘等操作,也可以结合存储系统的分级存储实现存储系统适应业务需求的灵活应变。
为获得更安全、高效、便捷的数据保护,通常将本地数据卷快照(Assuredsnap)功能和本地数据卷复制(Assuredcopy)功能,配合磁盘阵列的分级存储,实现存储系统内的数据安全保护。
3.4.3系统间数据镜像
为满足容灾一类的高端需求,S3200/S2200产品支持通过异步的方式,实现S3200/S2200产品之间的数据镜像功能,这样的数据镜像可使得不同地点的两套甚或多套存储设备拥有多份数据拷贝。
实施数据镜像的S3200/S2200存储产品可以是不同的磁盘介质和RAID设定,但所获得镜像数据可以保持完全一致。
2. 结语
Lenovo S3200/S2200磁盘存储系统承袭多项企业级存储产品的先进架构,应用多项领先的技术设计,构建可靠、高效、易用的存储平台,以满足用户日益复杂的存储应用需求。