新闻、帮助、产品更新动态

最新的业界新闻,产品系统更新开发动态,帮助教程和活动发布

腾讯云容灾系列(一)—— 云上业务容灾方案要

发布日:2021-09-07 09:59       阅读数:

1.容灾概念
将容灾这个词,分开来看“容”和“灾”。“灾“可大可小,某种意义上来讲就是"单点"问题,例如核心业务部署单台服务器上,这台服务器宕机起不来了,对业务来讲就是一场灾难;而“容”,是解决各种"单点"问题。以资源部署粒度来看,一直在解决单点问题路上,如下图:

2.决策因素
首先,要思考以下两个问题:
 
1)为什么要做容灾?
 
梳理当前系统“灾”,主要有哪些痛点,并对其优先级排序。例如单点隐患,难扩展性,运维成本高等等现状,结合现状进行排序,对后续方案选择至关重要。
 
2)容灾要做到什么程度能满足当前要求?
 
设计当前系统“容”,对当前系统潜在灾难逃生通道进行冗余设计,当灾难真正发生,预计多长时间能恢复,或者业务稳定性SLA,如SLA=99.999%。
 
其次,基于容灾范围和目标,在设计容灾方案重点从以下三方面来考虑评估。
 
1)成本,包括人力,时间以及资金。对于成本和恢复耗时成反比,业务恢复时间越少,成本也会越高;可以参考标准SHARE78模型。

3. 典型案例
虽然这里对“容灾”概念进行扩展,一般指同地域以及跨地域粒度的容灾;以云上客户案例同时结合腾讯云产品能力,分别对同城容灾,异地灾备以及异地多活进行说明。
 
3.1 异地容灾
异地容灾的核心特征:
 
1)容灾范围:地域粒度的容灾。
 
2)流量分布:单地域承载100%业务流量。
 
3)数据存储:数据库以及存储均在异地做冷备,数据单向同步。
 
4)常见使用场景:主要在数据层安全级别容灾,业务层较少异地部署。跨地域数据同步耗时较长,国内大约30-60ms之间,一般线上业务很忍受。备用区没有承载业务或者只有数据层冷份,恢复时间保证强依赖业务快速扩容,调度以及版本一致性等能力支撑。
 
以下是云上某个金融公司异地容灾架构:
 
1)接入层和业务层均使用低配以及业务单台服务器部署方式,主要提升业务快速扩容能力,一方面主可用区异常,借助腾讯弹性伸缩AS能快速扩容,另一方面业务发布版本在不同地域保持一致。
 
2)该数据层使用云上PAAS产品,云上产品均支持异地容灾能力,同时操作便捷。如CDB和COS均通过云上控制台按钮式方式建设异地容灾能力;而对于es通过ccr方式进行数据复制。


3.2 同城容灾
同城容灾根据数据写入方式分为单写或者双写;单写称为半双活,双写称为双活。
 
3.2.1 同城半双活(单写)
同城半双活核心特征:
 
1)容灾范围:可用区粒度容灾。
 
2)流量分布:每个可用区均承载业务流量;数据层存在跨区写场景,根据业务敏感程度,流量按照适中比例调度到两个可用区,但是必须要两个可用区均承载业务,这里可用性和性能要进行取舍。
 
3)数据存储:数据库az部署,其中数据库单向同步,单可用区写多可用区读。
 
4)常见场景:业务对数据一致性要求较高,同时能接受跨可用区延时,网络延时大约2-3ms,对业务改动较小场景。
 
以下是某云上智慧零售企业同城半双活架构:
 
1)接入层和服务层均两个两个可用区1:1数量同规格部署,通过业务域名解析来承载业务
 
2)中间件和数据层均使用云上跨az产品能力,如果存量是实例为单可用区,在控制台升级为多可用区;期间对业务没有影响,例如cdb,redis产品。对于es,ckafka,TDMQ有天然的跨az容灾能力,如果当前产品不支持存量升级,产品均有成熟方案,迁移成本较低。

3.2.2 同城双活(双写)
同城双活核心特征:
 
1)容灾范围:可用区粒度容灾
 
2)流量分布:每个可用区均承载流量业务;数据库采用分区模式,将数据分为两个可用区,az间的网络延时对业务影响较小
 
3)数据存储:数据库和存储跨az部署,其中数据库双向同步,读写均在各自可用区;存储cos本身具备多az容灾
 
4)常见场景:数据一致性强依赖于业务,同时业务不能接受跨az延时;相比单写方案,对业务改造较大,相当于单元化和set的业务改造级别。
 
以下是云上某saas厂家同城双活案例:
 
云上的存储业务均采用虚拟机或者黑石机器进行自建,业务以账户单双号进行set化部署;A区的数据库存双号,B区的数据库存双号;数据库同步使用双向方式;每个AZ数据库均存在全量数据;当一个可用区故障,业务通过DNS以及业务调用配置下发能力,将业务切换到另外一个可用区,同时取消同步能力。

3.3 异地多活
异地多活核心特征:
 
1)容灾范围:地域粒度容灾
 
2)流量分布:每个地域均承载流量业务;数据库读写均在同一个地域
 
3)数据存储:每个地域均存储本地数据和全局数据
 
4)常见场景:业务已经完成set改造,每个地域为独立一个或者多个set,全局数据进行地域之间复制同步。
 
以下为某生活巨头异地多活的场景:
 
业务流量统一调度,通过路由层进行set路由,将流量分发到各个set;各个set业务流量相互独立;数据容灾各个set之间两两互备,同时set和中心互备形成三副本。某个set故障后,流量入口切换set路由保障服务。

4.方案对比
关于以上四种容灾方案,分别从成本,可用性以及可扩展性做横向对比总结。
 

编辑:航网科技   来源:腾讯云

本文版权归原作者所有 转载请注明出处

联系我们

0755-36300002

深圳市龙华区和平路龙胜商业大厦5楼B5区

资质证书

  • Copyright © 2011-2020 www.hangw.com. All Rights Reserved 深圳航网科技有限公司 版权所有 增值电信业务经营许可证:粤B2-20201122 - 粤ICP备14085080号

    在线客服

    微信扫一扫咨询客服


    全国免费服务热线
    0755-36300002

    返回顶部