7月8日,由金科创新社主办的“2022云网智能运维在线沙龙”成功举办,主题为“数据驱动,推动运维管理转型升级”。来自哈尔滨银行、四川银行、江西银行、广州银行、厦门银行、长沙银行、郑州银行、贵阳银行、邢台银行、东营银行、商祺银行、晋商银行、尚萌银行、晋商银行、宁波商业银行、赣州银行、厦门国际银行、青岛银行、烟台银行、乌鲁木齐银行、东莞银行、广东华兴银行、湖南三湘银行、江苏长江。
近年来,随着金融科技和互联网金融的发展,银行业务和IT架构不断演进,硬件、技术栈和系统之间的关系日益复杂。从物理服务器到虚拟化云平台,从商用产品到开源技术,从集中式架构到分布式架构,这些都给运维带来了严峻的挑战。央行金融科技发展规划提出,建立健全金融数据中心智能运维机制,加强多场景协同和多节点集成管控,提高节点感知、异常发现和故障预测能力,降低人工操作风险,推动运维管理模式转型升级。
在此背景下,商业银行积极开展智能运维的探索和实践。资深专家曾晓东分享了“某股份制银行智能运维系统实践案例”。他表示,针对该行数据中心的业务场景和核心需求,科莱帮助其实现了智能化、一体化的运维管理体系建设目标,即从四个维度“通过故障自动识别、智能报警、快速定位处置、故障前瞻预防,实现网络和应用系统的智能运维,以及生产事件的事前预测、事中监控、事后分析的全生命周期管理”。曾晓东从“项目背景、系统架构、系统特点”等方面详细介绍了项目的实施情况,并对“设计思路、应用效果、应用场景”进行了深入讲解。
云银行数据中心运维面临“云上云下流量隐形、故障追踪定位困难、业务运行质量感知薄弱、故障根源追踪困难”等重大挑战。如何立足自身实际,结合IT发展趋势,推动运维模式转型升级?如何有效解决应用和网络运维分离、数据孤岛等问题,构建云网智能传输和更新平台?在云原生化、微服务化、容器化的趋势下,如何将AIOps应用于精准报警、异常检测、根本原因定位、性能和资产容量分析等场景?在“金融行业云上云下综合流量智能分析能力实践”主题演讲中,分行副行长张建林在分析云数据中心运维现状和问题的基础上,提出了应用性能分析、云网性能分析、智能告警根源定位、资产容量分析、全流程安全保障等云上云下综合监控的五大关键能力 以及整合资产、应用、网络承载五大能力的全栈一体化运维平台——云魔方,从统一监控建设架构、云魔方产品架构、云上安全流量保护机制等方面详细介绍了云上云下的智能分析。 本文分享了科莱“云魔方”解决方案在“某银行公网应用请求失败、某用户云平台计算节点OVS性能导致业务失败、某用户容器云平台infra节点故障导致业务事故、某用户负载均衡节点故障导致业务失败”场景下的应用实践。张建林说,克莱依托“网络全景;完整路径会话查询;网络通信的细节;应用全景;应用程序访问完整路径;应用程序流监控;智能报警;云下的全流程采集、全流程分析、根源定位、溯源取证等核心能力,可以实现降本增效、触底反弹的核心价值,即通过全流程监控能力,精准有效地实现资源扩张评估和资源回收的闭环,避免无效投入和资源滥用;通过原始流量数据,作为故障定位的沟通桥梁,可以有效提高各部门故障分析的协作效率;当发生未知故障时,作为底层分析能力的全流可以定义高难度的故障位置。
哈尔滨银行数据中心专家张海辉以“数字化转型的探索与实践”为主题进行了演讲,重点介绍了哈尔滨银行数字化运维的思考与经验:一是在RD运维一体化管控中,非功能性评估规范的设计相关;二、投产和变更新系统、关键系统、标准系统、白名单系统等应用系统在“需求、设计、测试、投产”等方面的流程实例;再次,针对当前系统架构问题,从业务创新保障和技术方案选择两个方面提出总体架构规划和可靠性设计思路,对“服务接入通道、业务逻辑平台、核心账务服务、数据仓库分析”业务系统进行“跨站点多接入服务、多活动服务、客户会话保持、数据一致性和流量控制”的可靠性差异化设计。第四,从“质量控制目标、质量控制方法、生产技术规范、运维支撑基础设施”等角度提出了运维监控管理和可用性控制的基本思路。第五,按照“监控基线管理域、CMDB配置管理域、灾难恢复和应急响应管理域、外部工具管理域”设计运维监控框架,实现以监控配置信息和关系为核心,通过消息处理形成有效的功能数据;第六,从设计、测试、适配,到标准化、工具化构建容错容灾。张海辉表示,在银行数字化转型中,效率和质量是核心,成本和风险是基础,收益是最终目的。哈尔滨银行将围绕“提效、提质、控成本、控风险、增利润”,不断提升科技管理和运营管理的质量和效率,支持业务快速发展。
部分互动截图
本次大会的嘉宾还谈到了“负载均衡自动化管理策略;网络拓扑如何自动发现和匹配监控指标;如何定义、分析和警告意外故障;如何在数据标准化和统一管理的过程中降低运维成本;用什么工具实现数据中心资产的自动排序?哈尔滨银行运维、RD人员的岗位职责分工与协调,DevOps与Itil平台的流程联动;是否结合图像流量中的CMDB和关键信息自动识别业务自动人像;基于网络消息监控如何避免丢包导致的虚警:监控系统是否基于流量分析系统,能否实现业务关系的自动收集和分析。
“2022中小银行智能运维在线沙龙”聚焦云数据中心运维的痛点和难点,探讨应用和网络融合的新模式,帮助商业银行IT运维变被动为主动,探索构建云网络智能运维体系之路,给与会者带来了很多思考和启发。