12月18日发生的香港阿里云事件是阿里云运营以来出现故障时间最长的,对用户影响最大的一次运行故障。主要短板有两点:基础通信障碍和服务器异地灾备失败。
基础通信设施:冷水机故障后机房温度升高,阿里云服务器宕机。深层次想想,肯定是AI维护代替人工,为了节省工作量,并机运行。故障发生后,冷水机空调厂家人员路途时间,再加机组解锁时间,造成故障历时太长。
异地灾备失败:其实如果故障发生后,异地灾备工作正常,对阿里云用户也造不成那么大损失。所以有用户吐槽主要问题还是出在阿里云公司自身不无道理。当然香港电讯盈科的问题也很重大,无法保证阿里云租用机房基础通信设施安全运行,赔偿也不会少。
建议:提高基础通信设施和人员能力,增加资金投入,加强维护力量,优化应急预案,定期演练。