钱江晚报·小时新闻记者张云山
如果家里WIFI出现故障,基本上可以通过检查路由器找到原因。但是对于架构复杂的云计算平台来说,找出故障原因是极其复杂和耗时的。阿里创建了一个根源分析的通用框架,用AI快速定位失败的根源。已应用于部分云计算产品,节省一半以上时间,准确率达80%以上。该框架还在最近举行的ICASSP'22 AIOps Challenge国际网络智能运维大赛中获得冠军。
ICASSP是信号处理领域最大的国际学术会议。其中,ICASSP'22 AIOps Challenge网络智能运维大赛由香港中文大学等机构主办,希望通过机器学习的方式自动找出网络故障的根源。本次比赛共有382支队伍参加。阿里达摩院决策智能实验室和阿里云计算平台组成的团队获得冠军,并被主办方邀请以论文形式在ICASSP上发表主要算法。
根本原因分析是指找到故障的根本原因,是智能运维AIOps的重要研究方向。以云计算平台为例,其稳定性非常重要,但由于其架构复杂,模块众多,一旦出现故障,单纯靠人力检查费时费力,很难满足需求。因此,基于机器学习等智能方法的根本原因分析应运而生。
但是根本原因分析的技术门槛相当高,挑战也很多。首先,运维数据往往来自不同的系统,形式多样,要想找出关键信息,大海捞针。其次,容易被表象迷惑。在大型系统中,故障传播的环节往往很长,根源可能隐藏在深层节点。此外,还存在标注样本数据少、罕见等问题。
阿里创建了一个根源分析的通用框架,解决了上述问题。针对多源异构海量数据,采用时间序列分析技术提取关键信息;针对少量标记样本,采用时间序列相似性等方法对数据进行增强。针对故障传播环节长的问题,采用专家经验和因果图相结合的图算法找出根本原因。
该框架构建了丰富的算法工具箱和武器库,并应用于阿里云的实时计算、通用计算等多个重要产品,如Blink/Flink、MaxCompute、Dataworks等。,帮助运维人员及时发现异常,快速定位问题根源,准确率达到80%以上,比以前可以节省一半以上的时间。比如实时计算平台的热机问题,会导致负载高,运行慢。原因链很长,可能来自硬件故障,也可能来自操作本身。手动故障排除非常耗时,使用此框架可以快速定位根本原因。此外,它还可以帮助发现隐藏的异常,例如一些机器离线导致的资源短缺,迫使一些客户排队等待,这些在一般的集群操作中很难发现。
此外,基于该框架的一篇论文此前被收录在国际峰会CIKM2021中,研究人员受邀进行了30分钟的在线演讲。
本文为钱江晚报原创作品。未经许可,禁止转载、复制、摘抄、改写及在网上传播所有作品,否则,本报将通过司法途径追究侵权人的法律责任。