时间:2024-08-20 作者:奇安信集团
8月19日下午,“网易云音乐崩了”冲上微博热搜第一。与此同时,用户访问网易(163.com)、网易新闻等也会提示502错误。
此前有网友猜测,可能是“开发删库跑路”导致。但该说法被网易云音乐否认,但具体故障原因官方未对外披露。
奇安信安全专家表示,结合奇安信Xlab实验室监测分析,基本排除大规模DDoS攻击的可能性,初步推测是内部服务运维过程出现操作错误或其他故障导致。
有媒体从网易内部相关技术人员处获悉,此次宕机事件或与今年二季度的机房搬迁有关。“网易在贵州建立了机房,旗下业务分阶段搬迁,2024年Q2网易云音乐刚刚完成了贵州机房的迁移。”据前述知情人士表述,这次搬迁内部曾评估难度极大,稍有不慎就有重大事故发生的可能性。
另一位资深研发人士分析认为,网易云音乐“宕机”更有可能是因为云存储运维人员不熟悉底层系统配置,在操作中出现失误。该人士还表示,网易云音乐的响应速度相当慢,修复耗时2小时,而一般修复时间应该在30分钟以内。“这次事故肯定是因为人员不专业,预备系统没有发挥作用所致。”
大规模故障并非首次
世界上不存在绝对可靠的系统,故障往往是不可避免的。近两年,国内多款国民级应用频现崩溃事故,由于其用户基数庞大,影响面极广。
2023年11月,某头部云厂商的主要服务器群遭遇了严重的故障,导致数千家企业无法正常运营。从零售到金融,从物流到医疗,各行各业都被这次宕机事件波及。该云厂商作为国内领先的云服务提供商,其服务出现故障不仅对用户造成了损失,也对该体系产品的运营产生了严重影响。据估算,此次故障造成的损失以千万计。
同月,某出行巨头出现接近12个小时的系统故障,该巨头占网约车市场约七成份额,最高时达到九成,其存在的实际意义已经相当于基础设施。大部分用户已经形成了固定使用该出行平台的习惯,临时切换其他出行平台就需要复杂的下载、注册等程序,所以很多用户打不到车,造成出行延误。媒体估算,某出行巨头宕机近12小时期间,损失订单量达到千万级别,交易额接近4亿元。
启示:运维安全保障亟待重视和强化
奇安信数据安全专家认为,对于数字化程度极高的企业,普遍面临人员职责复杂难管理,运维资源及账号繁多难管理,高危操作执行难控制,过程无法回溯审计等难题,这也是很多政企机构运维故障易发的主要原因。
如何降低运维故障造成的影响,降低安全风险,同时提升运营故障的修复效率?为解决此类问题,奇安信推出了特权访问管理解决方案。
奇安信特权访问管理解决方案结合了特权账号管理(PAM)和运维安全管理(俗称“堡垒机”)的能力,在运维场景下提供用户身份认证、账号安全管理、特权即时授权、细粒度访问控制、高危命令管控及操作审计等管理手段,实现对企事业IT中心的主机系统、数据库、网络设备、中间件、安全设备等资源的账号及运维安全管理,为企事业IT中心运维构建一套特权访问安全管理体系。该方案还能广泛满足政府、金融、能源、电力、教育、医疗、央企等行业客户的账号安全与运维审计规范要求。
奇安信特权访问管理方案能为客户提升以下两方面的价值:
1)建立特权账号全生命周期管理机制:
方案通过建立完善管控机制,全面覆盖账号生成、属性变更、账号存储、账号使用、口令轮换、账号销毁等特权账号生命周期的各个环节;实现各种业务场景下特权账号的统一管理、规范使用与全局监控,降低因特权账号泄漏或被滥用而造成的安全事故和意外故障的发生概率。
2)构建全流程运维安全体系,落地最小权限原则:
方案以数据为核心资产,全流程审计与管控资产操作与运维流程,避免特权账号的长期持有,同时采取细粒度的命令控制策略,阻断权限升级及滥用行为。实现对各类人员、系统、资产实现统一化、自动化、标准化管理流程,最大程度减少权限滥用以及运维过程中误操作现象,并降低内部人员非法利用特权账号造成数据泄漏或系统故障的风险。同时,方案还能对用户从登录到退出堡垒机的全程操作行为进行审计,实现事件追溯和责任鉴定。
从这次影响范围很大的网易云音乐故障事件,到不久前全球发生的大规模微软蓝屏事件,再次提醒了业界和广大用户,即使是非常成熟的技术平台也可能遭遇意外故障。而业务稳定和网络安全涵盖了技术、管理、运维、战略等方方面面,是一项高度复杂的体系化工程。广大政企机构亟待将特权账号安全与运维安全放在至关重要的位置,提前未雨绸缪,最大程度降低重大故障发生的概率。
95015服务热线
微信公众号