亚马逊AWS发生乌龙事件 部分服务器遭删除!
- +1 你赞过了
据媒体报道:近日,全球最大的公有云服务商亚马逊AWS出现持续数小时的故障,发生宕机事件。外媒CIO.com由此作出评论:这次事件引发了人们关于过度依赖一家云服务供应商是否明智的争论。毫无疑问,对亚马逊AWS来说,这样的事件是罕见的。如今CIO们应该担心云供应商在不通知的情况下关闭其服务的潜力。
事后调查显示,亚马逊简单存储服务(S3)团队当时在调试一个问题,该问题导致S3计费系统的处理速度比预期慢。上午9:37分,一名获得授权的S3团队成员使用预先编写的playbook,执行一条命令。该命令旨在为S3计费流程中一个子系统删除少量服务器。
不幸地是,输入命令时输错一个字母,结果删除了一大批本不该删除的服务器。重新启动时,S3无法处理服务请求。该区域依赖S3进行存储的其他AWS服务也受到影响,包括S3控制台、亚马逊弹性云计算(EC2)、亚马逊弹性块存储(EBS)以及AWSLambda。
虽然上午发生服务器误删除事件,下午1:54分恢复正常。亚马逊官方博客解释:“虽然删除容量是一个重要的操作方法,但在这种情况下,使用的那款工具允许非常快速地删除大量容量。我们已修复此工具,并增加了防范措施,防止任何子系统低于最少所需容量级别时被删除容量”。
目前,AWS已经成为全球最大的公有云服务商,向很多企业提供计算、存储、网络等资源。即使发生一个小错误,后果也极其严重。因此,过度依赖单一云服务提供商将增加危险。
同时,这也告诫企业,程序员是否应该直接在现网上执行代码。为了减少错误,避免出现一些重大问题,可以考虑改进灾备机制、审核操作命令或者命令前测试的做法。
最新资讯
热门视频
新品评测