腾讯云披露 4 月 8 日服务故障原因:云 API 异常持续近 87 分钟

感谢网友 机器猫小丸子 的线索投递!

4 月 14 日消息,腾讯云官方公众号今日发文,披露了 4 月 8 日服务大范围故障的原因及细节。

官方表示,经过故障定位发现,客户登录不上控制台正是由云 API 异常所导致。云 API 是云上统一的开放接口集合,客户可通过 API 以编程方式管理和操控云端资源,云控制台通过组合云 API 提供交互式的网页功能。

故障发生后,依赖云 API 提供产品能力的部分公有云服务也因此出现无法使用的情况,包括云函数、文字识别、微服务平台、音频内容安全、验证码等。此次故障一共持续了近 87 分钟,期间共有 1957 个客户报障。

腾讯云方面称,若将云服务比作“酒店”,控制台就相当于“前台”,是统一的服务入口。“酒店前台发生故障会导致入住、续住等管理能力不可用,但已入住的客房不受影响。”这次故障中客户已经配置好的服务器等 IaaS 资源,包括已经部署运行的业务,没有受到云 API 异常的影响。

官方披露了这次故障根本原因及改进措施如下:

综合盘点这次故障,最根本的原因是在版本变更过程中,没有有效执行沙箱验证和预案演练,暴露了在变更管理上的不足,接下来将从以下几个方面快速进行改进和完善,以减少故障的影响范围和影响时长。

第一,提升系统韧性

 1、定期执行预定的变更策略模拟演练,确保在真实故障发生时,能够迅速切换到恢复模式,最小化服务中断时间。

2、优化服务部署架构,通过分层架构、代码审查和监控等手段, 避免 API 服务中潜在的循环依赖问题。

3、提供 API 服务逃生通道,当故障发生时,可供调用方快速切换。

第二,强化变更管理与保护措施

 1、完善自动化测试用例库,在系统变更前通过沙箱环境对变更内容进行严格验证。

2、实施灰度发布策略,逐步推广新功能或配置更改,按集群、可用区、地域逐步生效,以便在发现问题时能够迅速回滚。

3、引入异常自动熔断机制,当检测到系统异常时,能够立即中断变更过程。

第三,增强故障响应与沟通能力

1、对故障处理流程进行全面升级,确保实时更新故障处理进度和预计恢复时间点,提升故障报告发布效率。

2、在对外发布的故障通知中,清晰阐述受影响的业务范围、故障根因及预计修复时长,保持透明度。

3、优化腾讯云健康状态看板(StatusPage)的信息展示逻辑,解除对云 API 等云服务的依赖,通过引入缓存和容灾机制,确保即使在云服务出现故障时,能准确、及时地传递故障信息。

据4 月 8 日报道,当日下午腾讯云出现服务故障,接口响应报错、内部服务错误,网页显示 504 错误。腾讯云官方微博下也有网友反馈服务故障,IP 来自全国多地。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


“中国天眼”发现900余颗新脉冲星
标准引领促转 型提升新质生产力——2024数字教育标准创新应用研讨会召开
浪潮计算机在第83届中国教育装备展展现未来数字化教育形态新蓝图
高博会|多元AI智慧方案,赋能本科教育教学评估
华为随行WiFi 5首发价229元 支持16台设备同时连接
三星Exynos 5400 5G调制解调器发布 支持双向卫星通信
华为Pura70Pro/Ultra价格6499/9999元起 亮点突出
雷军宣布直播送SU7车模 每分钟抽一件礼物
华为Pura 70系列对比 70/70Pro/70Pro+/Ultra区别汇总
华为Pura70首批用户已收到新机 好评如潮
华为Pura 70风驰闪拍科普 堪称“抓拍速度之王”
淘宝推出无限次退货免运费服务:单笔最高达25元
华为Pura 70标准版不支持星闪(NearLink)技术
iQOO Z9 Turbo采用144Hz C8护眼屏 屏幕参数曝光
马斯克财富蒸发超1万亿 净资产不断缩水
ThinkPad P16 Gen2笔记本处理器升级 今年或无Gen3机型
iPhone 16 Pro影像参数曝光 1200万超广角升级了
华为鸿蒙OS4.2更新内容亮点 最新升级计划公布
vivo T3x海外发布:骁龙6 Gen1处理器+6000mAh电池
网友称刘强东数字人少了些感情 但口音十分接近真人