#简介#
中山大学附属第一医院,简称中山一院,位于广州。它成立于1910年。2019年中国医院排行榜出炉,中山一院排名第六。中山一院作为现代化大型三级甲等医院,信息系统建设全面。基于HIE的可扩展基础架构,建立了包括HIS、EMR、HRP、LIS、PACS等应用在内的信息管控系统。虽然信息中心在IT系统的建设和基础设施的维护上投入了大量的精力,但仍然存在系统运行缓慢、用户体验差的问题。由于医疗行业的特殊性,对系统的连续性和效率要求很高,因此迫切需要构建一个完善的网络流量监控和分析系统。2020年,中山一院采用了新尚安提供的新型智能流量分析平台,实现了网络质量和应用系统性能的实时监控,实现了快速故障分析的能力。IB的信息记者王永志采访了中山一院信息中心技术总监刘汉腾,请他从流量角度分享中山一院在实现稳定运维、提升用户体验方面的最佳实践。记者:就医院行业而言,其网络运维特点与其他行业有哪些不同?刘汉腾:医院信息系统,尤其是核心系统,不可能全年7×24小时关闭。最大停机窗口只有半小时左右,否则会影响患者排队就医。这一行业特点要求网络运维能够快速定位故障并及时排查。业务的特殊性决定了对网络运维的要求,对连续性保障的要求比较高。因此,在网络监控工具的选择上,我们要求信息系统传输的及时性和流程驱动的准确性,这是区别于其他行业的。
记者:医院智能运维建设有哪些难点?
刘汉腾:医院的智能运维套路还是以软件运维为主,但是软件运维需要载体,也就是硬件和网络要有强有力的支撑。现在我们感觉智能运维难的原因是软硬件的连接度不高,不同系统相互独立,导致其他系统取数据时底层资源关联度差。这种情况会导致很多后续的故障定位问题,比如整体资源很充足,但是局部资源很慢的情况。出现问题时,软硬件维护人员会互相推诿。如果没有快速定位的方法,责任就会不明确。
记者:中山一院的日常用户都是些什么人?这些人的数量级是多少?
刘汉腾:我们的用户分为终端的用户、开发运维的用户、患者,也就是前端互联网的用户。终端是我们的医生、护士和管理人员。我们内网大概有3000个终端,医生站、护士站、收费亭、取药亭、自助机,都是我们内网的医疗服务终端定位。我们还有2000台左右的办公终端,用于互联网上的沟通协调;目前开发和运营工程师的电脑有两三百台。我们根据门诊量来估算患者和前端上网人数,每天的规模在15000左右。
记者:信息中心对网络运维的能力要求是什么?刘汉腾:作为运维团队,我们想知道我们为终端开放了哪些网络端口,允许哪些端口连接我们的网络;开了多少服务器,提供了什么系统程序;打开了哪些数据库,有多少服务端口等。,这些流程从发布到审批再到后期上线都要有一个审核过程,也要有一个监控运维的配套机制。我们将进行一些日志审计,以及流量和数据库操作的审计。然后根据这些审核的结果,建立巡检,通过巡检发现运营过程中的问题。最后建立事件响应流程,必要时采取运维干预措施,这就是日常供给侧。
另一面是断层面。前端业务在持续使用中,比如医生、护士或者患者在使用中,我们会在后台设置前台在使用前端业务时的故障处理流程,比如判断前端事故的类型,如果能快速定位故障,就能尽量缩小故障的影响区域。因此,故障定位的及时性和准确性是一个令人头痛的问题,我们希望找到各种工具来改善它。这次我们用的是新尚安提供的全新可视化智能交通监控平台。其实在采用现在的这套工具之前,我们还使用了很多其他的运维监控工具,比如主机性能、数据库性能、整个机房的环境控制等。但是,问题是每个环节都是一个独立的诊断模型。当我们遇到跨系统故障时,我们需要运维团队的每个人都报告自己的系统状态。故障出在哪里,只能靠团队的运维经验来猜测,导致我们的诊断机制和定位精度都不太高。
记者:这次采用新的网络运维工具达到了哪些目标?
刘汉腾:nCompass可视化智能交通监控平台就像是安全部的安防监控总控制室。它可以整体了解医院所有服务环节之间的沟通过程,知道谁找谁的时候变化有多大,性能延迟有多长,流量有多高。当追溯每个链路之间的通信流时,可以为定位和诊断故障原因提供更好的视角。从整体到局部的故障定位会加快很多,人的效率和准确率都会提高。
记者:能否请您介绍一些交通监控平台帮助解决运维故障定位的例子?1机箱全景无法打开。
刘汉腾:我们的图像有两个典型的用户,一个是放射科医生,因为他要根据检查的图像写报告。如果他的诊断报告没有出来,那么比如外科,就要等这些意见,才需要进行一些手术干预,这样会降低临床的工作效率。另一类用户是其他科室的医生,他们也可能直接去看影像结果。比如门诊的医生要对病人的病情进行评估,做出一些门诊处方判断。如果这种形象缓慢,也会直接影响门诊人流周转,导致门诊排队。还有我们正在开发的第三项业务,即“云电影”。未来可能允许患者直接在手机上打开图像,患者可以将图像展示给第三方医生。如果这个体验不好,那么其他医生可能会认为我会诊的时候不看这个信息,我就看别人的,对医疗质量的全面性有影响。现在,有了新尚安提供的全新可视化智能交通监控平台,我们可以准确定位全景图像打开缓慢的问题出在哪里,并知道如何优化。比如去年12月28日下午4点半左右,很多用户反映在访问“全景影像系统”时,页面打不开,无法访问。经过nCompass,可以看到一些异常指标,初步怀疑F5负载节点有问题。
通过HTTP分析模板和数据包验证,我们可以得出分析结论:F5安全保护机制是由于大量设备扫描漏洞的瞬时访问而触发,导致部分正常业务访问失败。然后我们迅速进行了针对性的处理,使全景影像系统正常开启。2病例预约挂号慢。
刘汉腾:比如有我们的门诊叫号系统,经常有医生反映叫号慢,但不是所有科室都叫号慢,可能只有一个科室慢。在这种情况下,独立来看每个服务器的性能都是正常的,但是通过nCompass可以发现,在调用一个部门的时候,原来服务器的调用表的逻辑是有问题的。通过nCompass的模型,可以发现某个函数的参数在细节上有问题,已经很有启发了。
3案例电子申请表速度慢刘汉腾:以前只监测设备的可用性,缺乏对应用可用性的监测。很多时候,有投诉的时候,很难发现问题。例如,门诊医生抱怨电子病历访问速度慢。以前的工具只能监测和检查设备的可用性,没有办法快速有效的评估客户的体验,确定哪个URL访问慢,调用哪个参数,查询哪个数据库语句延迟,无法跟踪用户访问的全过程。包括电子申请表,以前经常被门诊医生投诉。等待电子申请表弹出的时间太长,导致医生门诊效率低,患者体验差。现在,我们也来看看这个交通模型。应用的端到端视图展示了业务系统各节点的访问关系和运行状态,可以实现实时监控。而且视图中的数据支持灵活编辑、深度钻取等功能,可以梳理出业务逻辑,形成各业务系统的端到端可视化监控。故障发生时,通过指标颜色和数值的变化,可以快速锁定故障节点。这将有助于我们的运维人员快速发现谁的通信过程有问题。记者:未来医院运维自动化还有哪些建设思路?刘汉腾:去年我院被评为“2020年全国智慧医院建设优秀案例”。这也是对我院坚持信息技术创新、提升服务能力取得的阶段性成果的充分肯定。作为医院的技术支撑部门,信息中心一直以用户体验为核心,积极探索优化医院IT资产管理效率的最佳实践路径。
目前在智能监控上已经基本实现了准确报警,所以在未来的运维建设上还有一些目标要实现。比如在应用可用性监控中,利用智能基线跟踪生产端的变化过程,基于AI算法和产品内置的故障分析逻辑,实现告警事件的自动智能分析,提高故障的响应效率。性能方面,通过深层次的检查和隐患分析,及时发现业务系统运行中的隐患,避免严重故障。在安全方面,我们希望建立及时的预警机制,例如根据网络流量和防火墙配置来监控防火墙的实时状态,并实现策略优化、合规检查和策略变化分析。
这些都是我们下一步想通过与新尚安的合作达到的技术能力。相信结合这些先进的技术能力,将进一步提升前端用户体验,提升我院的综合服务能力。