大规模服务设计部署经验谈(下)

2009-03-27

大规模服务设计部署经验谈(下)

Filed under: 架构 — hunter @ 8:51 pm

摘自《程序员》2008.8

声明：本文所有权属于《程序员》杂志，如本转摘有任何产权方面的问题，请及时联系本人，谢谢！

=============================================

大规模服务设计部署经验谈(下)

文／J a m e s H a m_lto n译／赖翥翔

运营和功能计划

    要高效地运营服务，关键在于让构建的系统有效地消除运营团队的绝
大部分管理交互。这样做的目标，是让一个高度可靠的24 x 7小时运行的
服务，由一个8 x 5小时工作的运营团队就足以维护起来。
    不过世事难料，一组或者多组系统救火不成，无法恢复上线的事情是
时有发生的。在熟知这些可能性的情况下，实现把损坏的系统标为当机这
个过程的自动化。依赖运营团队手动更新SQL表或者使用特别的技术移
动数据，都会招致灾难。与故障交战正酣时，往往错误也容易迭出。先预
估运营团队需要采取的补救措施，然后预先编写和测试这些过程。一般来
说，开发团队必须将紧急恢复措施自动化，而且他们必须对之进行测试。
显然，百密一疏，并非所有故障都能预估到，但通常一小组恢复措施就可
以用来恢复多种类型的故障。从根本上说，要构建并测试可以根据灾难的
范围和性质以不同方式使用及结合的“恢复内核”。
    恢复脚本应当在生产环境中进行测试。这里有一条普适规则，即如果
没经过频繁测试，什么程序都无法正常工作，因此不要实现团队没勇气使
用的任何东西。如果在生活环境中测试风险过高，那么脚本就没有达到能
在紧急情况下使用的标准，或者说在紧急情况下不安全。这里很关键的一
点是，灾难总是可能发生的，由无法按预期结果运行的恢复步骤所导致的
小问题酿成大灾难的例子是屡见不鲜的。要预见到这样的事件，设计出自
动化措施，让服务回复正常状态，而不至于丢失更多数据或损耗更多正常
运行时间。
    ◆让开发团队承担责任。Amazon也许是沿着这条道路贯彻得最坚定最矢
志不渝的公司了——他们的口号是“你创建就该你管”。这样的立场也许要比
我们会选择的更坚定一些，但这显然是一个正确的大方向。如果不得不频繁在
深更半夜给开发团队打电话，那么你就得做出一套自动化方案。如果需要频繁
给运营团队打电话，那么通常的反应就是要增加运营团队的人手。

—- 我们的俗语是：不要让别人帮你搽屁股^_^
◆只进行软删除。绝不要删除任何东西，只可以把这些东西标记成删
除状态。在有新数据进入时，即时将请求记录下来。每两周(或者更长时间)
保存一份所有操作的历史记录，可以有助于从软件或者管理上的错误进行恢复。如
果有谁犯了错误，忘记在delete语句加上where子句(这样的错误以前发生过，以
后也可能再犯)，那么数据的所有逻辑拷贝都会被删除。不管是RAID还是镜像都
无法防止这样的错误。具备数据恢复的能力，可以让原来会十分令人窘迫难堪的
大问题转化为一个小到甚至可以忽略不计的小障碍。对于那些已经做过离线备份的
系统，只需要从上次备份开始记录进入服务的附加数据就可以了。不过谨慎起见，
不管怎么说我们还是推荐进行更进一步的备份。

—- 这个需要考量数据的重要性，平衡操作上的繁琐带来的代价以及必要性
◆跟踪资源分配。了解性能规划的额外负载所带来的开销。每个服务都需要开
发出一些使用的度量标准，例如并发在线用户数量、每秒用户访问数或者其它合
适的标准。不管度量标准是什么，在这个负载度量和所需的硬件资源之间肯定存
在一个已知的直接相互关系。估算的负载数字应当由销售和营销部门提供，并在
性能规划过程中为运营团队所使用。不同的服务会拥有不同的变更速率，也要求
不同的订购周期。在我们开发过的服务中，我们每90天更新一次市场预报，
每30天更新一次性能规划和订购一次设备。
◆每次变更一样东西。在出现麻烦时，应当每次只向环境应用一个变
更。这条准则看起来显而易见，但我们也看见过许多场合里出现多个变更，
导致起因和效果不能吻合。

—- 很好的经验法则，以前在debug pc机硬件故障时常常用到
◆使所有资源都可以配置。在生产环境中，任何存在变更需求的资源，
都应无需经过任何代码改变，就能在生产环境中进行配置和调优。即使你
没什么好理由说明为什么某个值会有必要在生产环境中更改，只要实现起
来没什么难度，还是让它可变更好些。不应在生产环境中随意更改这些开关，
而应该使用为生产环境所规划的配置对整个系统进行彻底测试。不过，在
出现生产环境问题时，比起编码、编译、测试再部署代码变更的过程，进行简
单的配置变更永远是更加简单、安全和快速的。

—- 努力目标，不过也需要平衡，一个有几百项配置参数的配置文件往往会把新人吓垮
运营团队不能在部署环境中装配服务。要在部署过程中付出实质性的
努力，以确保系统中的每个组件都可以生成性能数据、健康数据和吞吐量
数据等。
在任何有配置变更发生的时候，都必须在审核日志中记录详细变更内
容、变更人和变更时间。在生产环境出现异常时，第一个要回答的问题就
是最近到底进行过哪些变更。离开了审核跟踪，那么这个答案就是“什么
都没被改过”，而且情况往往会是，被人们忘掉的就是引发问题的变更。

—- good !运维的兄弟们，好好学学哈！
预警是一门艺术。人们总是倾向于对所有事件都做警报，因为开发人
员认为这些事件可能值得关注。正是如此，多数服务的第一版通常都会产
生长篇累牍的无用预警，结果再也没有人去理睬。要提高效率，每个警报
都得说明一个问题，否则运营团队会慢慢学会对这些警报置之不理。进行
互动慢慢跳出需要警报的条件，保证所有关键性事件得到预警，以及在无
需采取应对措施时没有警报。除此之外，要实现正确的预警别无灵丹妙药。
要得到正确的预警标准，有两条度量标准很有用，也值得尝试：一、警报
和实际故障比(同时要设定一个较为接近的目标)；二、没有相应警报的系
统健康问题数量(并设定一个近于O的目标)。

—- 老是喊狼来的监控系统，最终会变成摆设！
    ◆对所有资源进行检测。测量通过系统的每一次用户交互或事务，报
告异常情况。尝试“运行器(人为的工作负载，用来模拟生产环境中用户
和服务的交互)”也是可以的，不过这还远远不够。如果只是单独使用运行
器，我们发现需要花费数日才能检测到一个严重错误，因为运行器的标准
工作负载也会被继续良好地处理，接下来还要再花几天才能查出原因。
    ◆数据是最有价值的资产。如果没有充分理解正常的操作行为，那么
要对非正常行为做出响应就不是件容易的事情。我们需要汇集许多系统内
发生的事件信息，才能知道系统是否真的正常运行。许多服务都经历过灾
难性故障，而只有电话铃响起的时候，人们才意识到故障的发生。
    ◆从客户的角度看服务。进行端到端的测试。虽然单有运行器不够，
但还是需要它们来保证服务器的完整运行。保证例如新用户登录这样重要
的复杂过程经过运行器的测试。避免误警，如果在某个运行器上的故障没
被当作重要故障，那么变更测试对象，换到是重要故障的运行器上。重申一
下，一旦人们开始对数据视而不见，真正的损失就会让人们措手不及。
    ◆检测是生产环境测试所必不可少的。要在生产环境中实现安全的测
试，就有必要进行全面监控和预警。如果某个组件开始出现故障，就必须
快速检测出来。
    ◆延迟是最棘手的问题。缓慢的I／O，以及尚未出现故障但处理缓慢的
现象，都是很好的例子。这些问题发现起来很困难，所以一定要仔细检测，
保证这样的现象可以检测出来。
    ◆要有足够的生产环境数据。为了发现问题，数据是不可或缺的。在
早期就要建立细粒度的监控机制，否则放到后面再翻新成本就高得多了。
我们所依赖的数据中最重要的包括：
    ◇对所有操作使用性能计数器。至少记录操作的延迟和每秒钟的操作
次数。这些数值突然出现的此消彼长现象，是一个十分危险的信号。
    ◇审核所有操作。每次有人进行操作之后，尤其是那些明显的操作，
一定要记入日志。这样做有两个目的：首先，可以对日志进行挖掘，找出用
户采取的操作类型(在我们的例子里是用户查询的种类)；其次，一旦发现
问题，这样做有助于调试问题。
    相关视点：如果每个人使用相同的账号管理系统的话，这么做带来不
了多少好处。相反这是一个非常糟的办法，不过这种情况不多。
    ◇跟踪所有容错机制。容错机制会把故障隐藏起来。每次出现重试、
某个数据被一处复制到另一处，以及机器或者服务重启这类现象时，都要
进行跟踪。要了解容错机制在何时隐藏了小故障，这样就可以对这些小故
障进行追溯，以防其变成大面积故障。我们曾经碰到过这样一个问题：一个
跨2000台机器的服务在几天内慢慢地瘫痪，最后只剩400台机器可用，而
一开始这个问题却没有发现。
    ◇跟踪对重要实体的操作。为某个特殊实体的所有重要操作记录一份
“审核日志”，不管这个实体是一个文档，或者一组文档。在运行数据分析时，
常常能在数据中发现异常现象。要了解数据的来源及其经历的处理过程。
到了后期才往项目加入这样的功能是非常困难的。
    ◇断言(assert)。不要吝惜断言的使用，而且要贯彻在整个产品中。收
集因此产生的日志或者崩溃转储(crash dump)，并进行调查研究。对于在同一
个进程边界内运行不同服务并且无法使用断言的系统，要写下跟踪记录。不管
哪种实现，都要能够对错误进行标记，频繁挖掘不同问题的频率。
    ◇保留历史记录。历史性能和日志数据对于趋势的总结和问题的诊断
都是非常必要的。
    ◆可配置的日志功能。对可配置的日志功能提供支持，这些日志记录
可以有选择性开启或关闭，以便进行错误调试。在故障过程中，如果不得
不部署带额外监控功能的新构建版本是非常危险的。
    ◆外部化健康信息，用于监控。考虑能实现外部监控服务健康程度的
方式，并使对生产环境进行监控容易实现。
    ◆保证所有报告的错误可以应对。问题总会发生，系统也总会出错。如
果在代码中检测到无法恢复的错误，并且在日志或者报告中归为错误，那
么错误信息应当指出错误可能发生的原因，并提供修复的建议。无法采取
应对措施的错误报告毫无用处，而且时间一久这些错误报告会像“狼来了”
一样被人们忽略，那时候真正的错误就可能被错过。
    ◆启用生产环境问题的快速诊断。
    ◇为诊断提供足够信息。当问题被标出时，要提供足够的信息，人们
才可以对其进行诊断；否则门槛会非常高，标注也会被忽略。例如，不要
    记录各个月艮务器完整的历史数据非常重要只说“10个查询都没返回
结果”，还得补上“列表在这里，还有问题出现的次数”。
    ◇证据链。保证存在一条贯穿始终的路径，可供开发人员诊断之用。
通常这都是由日志实现的。
    ◇在生产环境中的调试。我们偏爱这样的一种模式：系统没有被包括
运营团队在内的任何人触碰过，并且调试是通过镜像快照、内存转储并将
所得数据发送到生产环境之外来实现的。当生产环境成为唯一选择是，开
发人员就是最好的选择。要确保开发人员得到良好的培训，知晓生产环境
的操作限制。我们的经验是，系统在生产环境中动的次数越少，客户通常
也越开心。因此我们推荐，一定要多努一把力，尽量避免接触生产环境中
的系统。
    ◇记录所有重要的操作。每次系统执行了重要的操作，特别是对网络
请求和数据修改上，要进行记录。这既包括用户发送命令的事件，也包括
系统内部的行为。有了这样的记录，调试问题的时候就会获益无穷。更重
要的是，还可以开发出相应的挖掘工具，用来找出有用的集合，比如用户
的查询都是什么样的(也就是说，用了哪些关键字，有多少关键字等等)。

优雅降级和许可控制

    当发生DoS攻击或者由于用户使用模式变化而带来的负载激增时，服务器
需要能实现优雅降级和管理控制。例如，911恐怖袭击发生后，大多数的新闻服
务都发生瘫痪，无法向所有用户群体提供任何可用的服务。与此相比，如果能
够将～部分文章可靠地提供给用户，总比什么都不能提供好。最佳实践有两种
“大红开关(big red switch)”和许可控制，如果能够针对服务进行量身定制，
作用将会十分强大。
    ◆支持“大红开关”。这个概念最初来源于Windows Live Search，它拥
有很大的权力。我们对这个概念进行了一定程度的推广，更事务性的服务
与搜索差别迥异。不过这个想法非常有效，而且可以应用于任何地方。一
般来说，“大红开关”是当服务已经或者即将无法满足SLA时，采用的一个
经过精心设计和测试的措施。将优雅降级比喻成“大红开关”稍微有些不
恰当，但核心意思是指在紧急时刻卸掉非关键的负载。
    “大红开关”的主要思想是保证关键任务的运行，同时卸掉或者延迟
非关键的负载。从设计角度来说，这种情况应该不会发生，但在发生紧急
情况时不失为一个好的救火办法。在紧急情况已经发生之后再来考虑这些
问题是十分危险的。如果有哪个负载可以被加入队列并延后处理，或者在
关掉高级查询后仍能继续运行事务系统，那么这都是作为“大红开关”的
理想对象。关键在于，判断在整个系统出现问题时有哪些任务是必不可少
的，然后实现并测试在问题出现时关闭非关键服务的选项。切记“大红开
关”必须是可逆的，也就是说当紧急情况解除后，必须保证开关能正确地
让所有的批处理工作和先前被停止的非关键任务恢复原状，这是应当经过
测试的。
    ◆控制许可。许可控制是另外一个重要的概念。如果都无法对当前的
任务进行处理，向系统引入更多的工作负载只会将不好的体验扩散到更大
的用户群中。这要如何实现和系统有关，有些系统实现很容易，有些则比
较困难。拿我们上次的邮件处理服务作为例子，如果系统超过负荷，开始
排队列的话，我们最好是拒绝接受后续邮件进入系统，然后让这些邮件在
来源处列队等候。这样做很有意义并实际上减少了整体服务延迟，主要原
因在于一旦队列在我方形成，系统会处理得更慢。如果我们拒绝形成队列，
吞吐量也会得以提升。另外一个诀窍是：重要客户优先于非重要用户，注
册用户优先于访客(但如果是以吸引新访客作为商业模式的，另当别论)。
    ◆对许可进行计量。还有一个无比重要的概念，就是前面所说的许可
控制观点的修改方案。如果系统故障并当机，必须能够实现逐步恢复用户
使用，并确保系统运行正常。比如先允许1个用户进入，然后允许每秒进
入10个用户，随后再逐渐放宽限制。对于重新上线或者从严重错误中恢复
过来的系统，应该确保每项服务都有一个细粒度的开关，来实现用户的缓
慢增加，这是至关紧要的。大多数系统的初始版本中很少有包括这项功能。
对于有客户端的系统，一定会存在一种方式，用来通知客户端服务器当机，并
且告知可能的恢复时间。这样一方面使客户端尽可能继续基于本地数据来运行，另
一方面也可以避免客户端打扰服务器，以便后者更快恢复。这样同时也给了服务拥
有者一个直接和用户沟通的机会(见下节)，用来调整用户的期望值。另外一个关于
客户端的技巧是刻意设置扰动(jitter)，和自动备份来防止客户端在同一时刻“扑
向”脆弱的服务器。

客户和媒体沟通计划

    当系统出错时需要就发生的延误和其它相关事项与客户进行沟通。沟
通应当能以可选的方式通过多个渠道完成：RSS、Web，还有即时消息等等。
另外，对于拥有客户端的系统，通过客户端来进行和用户的沟通也是很有
效的。可以告诉客户端在一定时间内或者特定时间点之前避免访问服务器，
或者如果支持的话，可以告诉客户端在离线和缓存的方式运行。客户端可
以把系统状态告诉用户，并说明可以预计完整的功能在何时恢复。
    即使在没有客户端的情况下，比如用户通过网页来和系统交互，仍然
可以告知用户系统当前的状态。当用户了解发生的状况并对系统的恢复时
间有一个合理的期望值，他们的满意度会大大提高。系统管理员常常会不
自觉地倾向于隐藏系统发生的问题，但是跟据我们的经验，我们确信，将
系统的状态告知用户会极大地提高其满意度。即便是非付费系统，如果人
们知道系统发生了状况并被告知其何时会恢复，他们放弃使用这项服务的
可能性也会减小。
    某些事件会引发媒体报导。如果这样的场景有预先备好的应对方案，
那么会更加真实地反应服务的情况。大量数据丢失或损坏、安全遭到破坏、
违反隐私以及服务器长时间当机，这样的情况都可能引起媒体的关注。事
先准备好一份沟通计划。清楚电话通知谁，并能主导谈话。沟通方案的框
架应当事先搭好。应针对每一种事故制定一份沟通方案，内容包括该给谁
电话通知、电话时间，还有如何掌控沟通过程。

客户自预置及自助服务

客户自己进行预置可以大幅度降低成本，同时还能提升客户满意度。如果
客户可以访问网站，输入所需数据，然后就可以开始使用服务，那么他们要比
不得不在电话处理队列中浪费时间开心得多。我们一直认为，主流移动运营商
因为没为那些不想致电客户支持组的用户提供自助服务，错过了一次拯救并提
升客户满意度的好机会。

结语

要降低大规模互联网服务的运营成本并改善服务的可靠性，一切从编
写服务时注重运营友好开始。在这篇论文中，我们为“运营友好”做了诠释，
并根据从事大规模服务的工程师的经验，总结了服务设计、开发、部署和
运营的最佳实践。■

Hunter的大杂烩技术学习笔记

2009-03-27