Hunter的大杂烩 技术学习笔记

2009-02-17

【转】实现高可用性的7R原则

Filed under: 技术话题,架构 — hunter @ 11:33 am

from:http://www.net130.com/CMS/Pub/special/special_storage/21271.htm

 

实现高可用性的7R原则

    每个应用过程的负责人都希望把他们负责的各种在线系统的正常运行时间最大化–最好是把它们变成完全的容错系统。  

内部和外部的约束使得这个问题变得几乎不可能解决。预算的限制,部件的失败,不完善的代码,人的失误,自然灾害,以及不可遇见的商业变化,都是达到100%可用性(或者说高可用性)的障碍因素中的一部分。

这里列举了七条在不打破预算的情况下,最大化可用性的方法。由于每种方法的首字母都是R,所以又称高可用性的7R原则。他们是:
冗余(Redundancy)
名声(Reputation)
可靠性(Reliability)
修补能力(Repairability)
恢复能力(Recoverability)
响应(Responsiveness)
活力(Robustness)


冗余
多年来,制造商一直在设计他们的产品中保存一定的冗余,包括多余的能源供应,多处理器,内存分段,以及多余的磁盘。对于整个采用热备模式运行的服务器系统来说也是如此。基础架构分析人员在配置磁盘、磁盘控制器和服务器使用双路径;把网络负载分散到两条线上;以及提供备用的控制台,这也是采用了同样的方法–总而言之,尽可能地减少单点的故障造成服务中断的可能性。

名声
后面三个”R”–名声、可靠性和修补能力–紧密相关。名声指的是主要供应商一贯的记录。可靠性是关于产品中所使用的部件和代码的可依赖的程度。修补能力是衡量供应商能够多快,并且多方便地修理好(或者替换掉)有问题的部件。下面,我们将仔细看看这三项。在服务器,磁盘存储系统,数据库管理系统和网络硬件以及软件领域中,供应商的名声是获得高可用性的重要因素。最好是选用最好的供应商。你可以通过下面几中方法来衡量一个厂商的名声。
市场分额百分比
行业分析家和华尔街的报告
在该领域内的历史记录
客户参考(尤其在确认诸如费用,服务,产品的质量,服务人员的培训以及可信程度等因素时,这点格外有用)。
可靠性
软件或者硬件的可靠性也可以通过客户参考和行业分析家来证实。除了这些,你应该考虑采用经验性部件可靠性分析的方法。这需要以下步骤:
检查并分析问题管理日志
检查并分析供应商日志
从操作人员那里获得反馈
从支持人员那里获得反馈
从供应商的维修人员那里获得反馈
同其他人的经验做比较
研究行业分析家的报告
一个对于问题日志的分析应该显示出任何不寻常的失败模式。你应该从供应商、产品、使用部门、发生失败的时间和日期、失败出现的频率以及维修的时间等角度去研究它们。供应商经常保存站内维修日志,你可以用它们来进行相似的分析。

你将发现操作人员的反馈通常是公正的,而且有启迪的作用,能够反映出各个部件真正的性能。尤其是对于那些离站的操作者们。例如每天早晨,在启动前他们可能要对某一个特定的网络部件做数不清的重启动,但是由于这一情况经常出现,他们可能懒得做日志进行记录。和不同支持人员,比如系统管理员、网络管理员和数据库管理员进行的相似的交流可能反映出相似的要求。

你可能认为供应商的维修人员提供的反馈会有偏私,但是根据我的经验,他们对于自己产品的反馈和使用那些产品的人的反馈一样公正而且有启迪的作用,能够正确显示出那些产品的可靠性。这样,那些维修人员就成为评估部件可靠性、以及和其他公司的经验做比较的一个有价值的信息来源。那些和你使用的平台、配置、提供的服务和客户都很相似的公司的经验特别有帮助。有名的行业分析家的报告也可以预测部件的可靠性。

修补能力
修补能力是技术服务人员能够解决或者替换有问题的部件的能力。衡量这项能力的两个通常的标准是完成维修的时间长短和维修工作多长时间就要进行一次。在比较成熟的系统里,维修的工作可以通过远程诊断中心来完成,在那里,错误被查明并修正或解决,并执行了永久的解决方案,这个过程只需要很少或者根本不需要操作人员的介入。

恢复能力
恢复能力指的是克服瞬间的失败的能力,它使最终用户端的可用性完全不受这类事件的影响。它小到从一个内存单元的错误中恢复,大到整个服务器系统转移到热备的系统上而不丢失数据和传输。恢复能力还包括重新尝试对于磁盘或者磁带进行读取或者写入,还包括沿着网线重新尝试传输。

响应
响应指的是紧急情况下,所有相关人员及因素解决问题、排除故障的能力。它包括有训练有素的供应商和内部支持人员能够对问题做出快速而有效的反应。它还包括对于资源,比如磁盘或者服务器的自动恢复能够在多长的时间内起作用。

活力
关于高可用性的最后一个词就是”活力”,它描述的是可用性程序的整体设计。一个有活力的程序将能够经受很多不同的考验–无论是来自内部的还是外部的–而这些问题可能轻而易举地就能够破坏一个比较脆弱的系统的可用性。要保持活力需要对于文件和培训投入相当的额外费用。这些技术培训包括:为了适应和平台、产品、服务和顾客相关的技术的变化的培训;为了适应相关的人员变动的培训;为了适应新经营方向、合并和收购等新的商业变化的培训。

理解并应用这7有关高可用性的单词,可以帮助你实现高可用性的梦想。

No Comments

No comments yet.

RSS feed for comments on this post.

Sorry, the comment form is closed at this time.

Powered by WordPress