高可用性基础架构中,起到决定性作用的是检测和消除可能增加系统停机时间或妨碍企业达成性能目标的单点故障。基础架构的单点故障可能会使整个系统中断脱机,而复杂的系统可能存在多个单点故障。
企业与机构还必须考虑在现代复杂的 IT 基础架构中可能出现的多种故障类型。这些故障包括硬件故障和软件故障(二者针对操作系统和运行应用),及服务故障(网络无法访问和延迟、云服务或性能下降)和外部故障(如断电)。
要实现高可用性,企业与机构可采取的第一步是基于其核心服务、工作负载和监管或合规要求、性能基准、关键应用及运行优先级,确定其希望获得的具体、最重要的成果:
以遵守法规或用户体验为目的,对正常运行时间有什么要求?IT 环境是如何分布的?有哪些关键故障点?应用必要的性能是怎样的?这种应用性能有哪些风险(如高用户流量或高写入负载)?使用的存储类型是什么?对数据丢失或数据访问有什么要求?对于目前的 IT 资源,在断电的情况下,可实现的 SLA 是什么?目前计划的维护时间是怎样安排的,对正常运行时间有什么影响?是否有针对不同灾难恢复场景或业务运营变化的计划?高可用性环境中也有一些常见指标可供 IT 团队确定高可用性架构是否达到了目标。有些指标可能比其他指标更适用于您的架构,但为了设定预期的基线性能,所有指标都值得评估:
平均故障间隔(MTBF):环境在系统故障之间的运行时间。平均停机时间:系统在拓扑结构中恢复或被替换掉前的停机时间(分钟)。恢复时间目标(RTO):系统完成修复或重新运行所需的总时间。恢复点目标(RPO):能够恢复数据的时间段。它是可接受的丢失数据的时间窗口。举个例子,如果一个系统要靠从备份来恢复,而每天都会进行备份,那么恢复的系统中可能有 24 小时的数据丢失。但是,如果有复制或共享存储,那么数据丢失时间可能仅有几分钟或更短。