VPLEX vs HDS HAM ⋅ 存储互联

近期在撰写VPLEX容灾培训教材时，涉及到竞争分析的内容，找了一些友商的存储容灾技术方案，发现国外有一个博主（http://www.thestoragechap.co.uk，从资料上看是EMC员工）已经就VPLEX分享了较多内容，翻译了部分内容（加“”部分）并基于其他资料，整理综述如下：

“VPLEX引领了Active/Active双活的潮流，很多厂商推出了相应的解决方案，并声称自己是Active/Active双活，但是我们必须得知道他们在架构上的不同，并理解什么是真正的Active/Active双活”。

“2012年HDS发布了HighAvailability Manager解决方案，简称HAM，可以与VMware的vMSC（vSphereMetro Storage Cluster）连接。那么在VMware的用户场景中，HDS的HAM和VPLEX Metro有什么区别呢？”

从HDS的官方资料来看，HAM实际上是多个部件的组合：

两个（而且只能两个）HDS的VSP或USP-V；

HighAvailability Manager；

HitachiDynamic Link Manager（HDLM）多路径软件；

TrueCopy同步复制；

通过FC与两个VSP/USP-Vs短距离连接，部署在第三站点的仲裁盘；

上图是HDS HAM的官方白皮书中列出的架构

（https://www.hds.com/assets/pdf/hitachi-vsp-high-availability-manager-user-guide-v-70-06-2x.pdf）。

在发生故障时，主机端在多路径软件的支持下，从访问主站点P-Vol切换到访问S-Vol。

simditor-img “显然，HAM是个不折不扣的Active/Passive结构，HAM利用两台Active/Passive的阵列，通过存储复制进行数据同步，对于ESX主机来说，借助主机端多路径软件，故障时切换到第二个站点。”

“在VMware环境部属时，可以注意到HAM增加了复杂性”。

在vCenter上安装HDLM；

在每个ESX主机上安装HDLM多路径驱动软件；

在客户端或者vCenter上安装RAID Manager；

在vCenter里建立配置文件，这个文件来定义“复制对”；

为了在vCenter里控制VSP间的复制，需要两个Command Device；

“HAM对”是在VSP阵列层面上，通过HDS的管理界面创建；

“所以HAM架构会存在以下风险”：

仲裁机制：HAM的仲裁盘必须通过FC与两个站点连接，使其与两个站点的距离要很近；而且如果仲裁盘失效或者不可访问时，阵列间的复制会中止，此时主卷还可以访问，但因为与从卷的数据不一致，已经无法实现自动切换；而VPLEX Metro的Witness仲裁机制，采用了轻量级VM，只需要IP连接，允许1秒的往返时延（RTT），使其可以扩展到上千公里。

WAN失效：当广域网连接中断时，主站点会发生故障切换，生产系统中断。第二个站点的S-Vol变成“可读可写”，主站点的P-Vol被Disable，ESX主机重启通过HA切换到第二个站点上。而VPLEX Metro在这种场景下，所有的VM都会保持在线状态。

Failback机制：当HAM发生故障切换后，应用运行在第二个站点上，在主站点修复故障后，如果你想Failback回去。那么首先你要修改TrueCopy，把数据从第二个站点复制回主站点，并通过命令行启动主站点的HAM路径，在这些完成后，主站点的P-Vol被重新启用。然而这还没有结束！你必须重新修改TrueCopy的复制方向，从主站点复制到第二个站点。而对于VPLEX Metro来说，因为没有主备的概念，也就不存在Failover和Failback。

“总结HAM关键的问题点如下”

VSP与vMSC只能工作在Uniform Host Access模式（需要交叉连接）；

VSP与vMSC配合是个Active/Pasive方案，在某一时刻只有一边是可写的；

VSP与vMSC配合时需要第三方站点的仲裁盘，避免数据的不一致；

仲裁盘不可访问时，阵列间的复制会中断，且无法故障切换；

站点间的广域网中断时，会导致严重故障，需要手动重启和切换VM；

vMSC需要利用HAM和TrueCopy，因此只有VSP支持vMSC；

大多数HAM的操作都是基于命令行进行的。

在博主Sebastian Darrington发表文章后，有一位网友MrZeroG回复，试图反驳文中的一些说法，但也补充了一些HAM的工作细节：

1. MrZeroG说首先两边都无法访问仲裁盘的几率是非常小的，而且他质疑VPLEX Metro如果无法访问Witness时，会怎么样？

注：根据EMC的白皮书，若两个站点均无法访问Witness，此时两个站点的IO访问会继续进行，同时发出Call-Home请求修复；

2. MrZeroG提到只要所有的主机还能继续访问P-Vol，切换就不会发生，只有写请求被发送给S-Vol时，才会触发切换；

3. MrZeroG提到了HAM可以将两个Volume部署在两个站点上，形成互为主备的关系，但这会增加站点间的数据流量；

结合以上的文章和HDS的官方文档，可以看到：HAM是个基于存储同步复制的容灾方案，利用HDS自身的TrueCopy和HDLM实现了基于存储的高可用解决方案。

这种架构的特点：

利用存储本身的功能，实现比较简单，成本低；

灾难时需要手动切换，RTO、RPO比较长；

通常必须同品牌、同架构的存储才可实现；

在客户预算较低、对RTO/RPO要求不苛刻时，都可以利用主流中端存储自带的Mirror、复制功能来实现。

simditor-img

小宇的自我介绍

姓名：单晓宇。企业级营销存储Team，负责中高端存储和解决方案，喜欢研究市场、技术、产品。好读书，不求甚解，每有会意，便欣然忘食……

扫以下微信号并关注我哟~

长按图片，选择“识别图中二微码”并关注我~

simditor-img