ad

如何确保云服务的可靠性(如何确保云服务的可靠性问题)

匿名投稿 245 2024-01-02

从客户的角度来看,云服务应当只是工作。但是,服务的中断实际上是难以避免的,这不是一个“是不是会产生”的问题,严格意义上是“什么时候会产生”的问题。不管在线服务的设计和建成是如何的精炼,都会难以避免的遭受到突发事件的产生。区分就在于服务提供商如何预估,并及时的从这些情况中进行恢复。从而保证客户的体验。

  指点设计原则

  云服务的3大设计指点原则:1、数据的完全性,2、容错能力,3、快捷恢复。这些是客户期望满足的3大属性,最少,要在他们的服务中保证这3大属性。数据完全性是指保护客户拜托服务的信息的保真度。容错能力是服务供应商能够检测到故障,并自动采取纠正措施,以便使得服务不会产生中断的服务能力。快捷恢复能力是指在未预感到的故障产生时,能够快速而完全的恢复服务的能力。

  作为服务商,我们需要尽量的提早辨认并找出各种潜伏的故障,然后在服务设计阶段对这些情况进行充分的斟酌。这周全的计划可以帮助我们决定如何确切地服务,并在产生意想不到的挑战时如何做出反应。服务必须能够从这些故障的情形下进行恢复,并保证最小的中断。虽然我们不能预估到每个故障点或每失效模式,但利用前瞻性、业务连续性计划和大量的实践,我们可以制定一套紧急预案的流程,以备不时之需。

  针对云计算的特点,其可以被描写为一个复杂的系统组成,依赖于同享的基础设施和疏松的耦合的性,许多特质都是在供应商的直接控制以外。传统上,许多企业保护的内部部署的计算环境,能够让他们直接控制他们的利用程序,基础设施和相干服务。但是,随着云计算的使用量的延续增长,很多企业都纷纭开始选择放弃一些控制权,以下降本钱,充分利用资源的弹性(举例来看,计算、存储、网络资源),增进业务的变通性,和??更行之有效的地利用他们的IT资源。

  

如何确保云服务的可靠性(如何确保云服务的可靠性问题)

  理解团队的角色定位

  从工程服务团队的角度来看,设计和建筑服务(相对盒产品,或企业内部部署的解决方案)意味着扩大了他们的责任范围。在设计企业内部部署的解决方案时,工程团队只需要设计建造并测试服务,将其打包,然后针对软件操作建议所描写的计算环境进行发布便可。而相比之下,工程服务团队在设计建造并测试服务以后,还要进行相干的部署和监控,以便确保服务的继续运行,如果有突发事件,他们需要确保尽快的解决。而且工程服务团队常常对服务计算环境具有更少的控制权!

  采取故障模式及作用分析

  许多服务团队采取故障模型(FMA)和本质原因分析(RCA),以帮助他们提高服务的可靠性,避免故障的产生。我的看法是,这些都是必要的,但还不够。相反,所不同的是,设计团队应采取故障模式及作用分析(FMEA)来帮助确保更行之有效的的结果。

  FMA经过可重复的设计流程旨在辨认和减轻服务设计进程中的故障。RCA包括辨认和肯定致使有害结果的性质、范围、位置和时间因素。一套整体的终端到终真个FMEA方法的主要好处包括全面的故障点和故障模式综合图,能够构成一个工程投资的优先级列表,以减轻已知故障的映照。

  FMEA应用系统可靠性工程师技术的开发研究,发现可能出现的(复杂的)系统故障问题。研究经过评估严重程度、产生的频率和检测能力来了解故障作用可能存在的问题,以便基于不同的风险优先处理所需工程投资。

  准备阶段:在此步骤中,重要的是要理解系统的完全性,生成一个完全的系统的逻辑图,包括其组成部份、数据源和数据业务流。使用模板来完成,这提高了整体的分析结果,经过提供可能的故障点,设计团队可以发掘到重要的线索。

  发现组件间的相互作用:一切都在这一步的范围内。从前面所指出的逻辑图开始,以肯定所有的组件是不是容易运行失败。了解所有组件(连接器)之间的相互作用,和每一个组件如何在完全的系统中发挥作用。


免责声明:
本网址(www.yingxiongyun.com)发布的材料主要源于独立创作和网友匿名投稿。此处提供的所有信息仅供参考之用。我们致力于提供准确且可信的信息,但不对材料的完整性或真实性作出任何保证。用户应自行验证相关信息的正确性,并对其决策承担全部责任。对于由于信息的错误、不准确或遗漏所造成的任何损失,本网址不承担任何法律责任。

本网站所展示的所有内容,如文字、图像、标志、音频、视频、软件和程序等的版权均属于原创作者。

如果任何组织或个人认为网站内容可能侵犯其知识产权,或包含不准确之处,请即刻联系我们进行相应处理。

上一篇:云计算的重新构造架构:优化迁移策略(云计算迁移的概念)
下一篇:机器学习是云原生可靠的不久的将来
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

×