智能汽车安全新媒体
11月15日,阿里云于11月12日发给客户的一份「官方故障报告」曝光。
影响范围
OSS、OTS、SLS、MNS 等产品的部分服务受到影响,大部分产品如 ECS、RDS、网络等运行不受影响。
云产品控制台、管控 API 等功能受到影响。
影响时间
2023年11月12日17:39~19.20,故障时间为 1 小时 41 分。
问题概况
2023 年 11月 12 日 17:39 起,阿里云云产品控制台访问及管控 API调用出现异常、部分云产品服务访问异常,工程师排查故障原因与访问密钥服务 (AK)异常有关。
工程师修订白名单版本后,采取分批重启 AK 服务的措施,于 18:35 开始陆续恢复,19:20 绝大部分 Region 产品控制台和管控 API 恢复。
处理过程
17:44:阿里云云产品控制台访问及管控 API 调用出现异常。
17:50:工程师确认故障是 AK 服务异常导致,影响云产品控制台、管控 API 调用异常,以及依赖 AK 服务的云产品服务运行异常。
18:01:工程师定位到根因。
18:07:开始执行恢复措施,包括修订白名单版本、重启 AK 服务。
18:35:杭州等地域开始恢复正常。
18:54:北京等地域的控制台及API服务已恢复。
19:20:绝大部分 Region 的云产品控制台和管控 API 调用恢复正常。
21:11:公告显示受影响云产品均已恢复
原因
访问密钥服务 (AK)在读取白名单数据时出现读取异常,因处理读取异常的代码存在逻辑缺陷,生成了一份不完整白名单,导致不在此白名单中的有效请求失败,影响云产品控制台及管控 API 服务出现异常,同时部分依赖 AK 服务的产品因不完整的白名单出现部分服务运行异常。
改进措施
增加 AK 服务白名单生成结果的校验及告警拦截能力。
增加 AK 服务白名单更新的灰度验证逻辑,提前发现异常。
增加 AK 服务白名单的快速恢复能力。
加强云产品侧的联动恢复能力。
故障导火索
外界普遍认为,裁员,特别是高级技术人员的缺失,或是阿里云这次大规模故障引发的主要原因。一业内专家表示,维护一个复杂的中台需要大量专业的开发和运营人员,而阿里云今年的裁员对此或多或少产生了影响,另外,管理亦是因素之一。
据此前报道,今年5月,关于阿里裁员的消息在微博、脉脉等各大社交媒体上引发热议,裁员风波涉及淘天集团、菜鸟、本地生活、云智能集团、大文娱等板块。
其中,作为阿里六大业务之一的阿里云智能,被曝裁员比例约 7%,彼时,阿里云方面回应表示,这是公司进行的正常组织岗位和人员优化。
内容综合:
mp.weixin.qq.com/s/wzVGrBq544KUSe7Yxook-g
www.tmtpost.com/6791045.html
- THE END -
因文章部分文字及图片涉及到引用,如有侵权,请及时联系17316577586,我们将删除内容以保证您的权益。