我国城市电网系统的电缆化率逐年提高,电缆线路安全运行的重要性日益突出。近年来,由于电力负荷上升等原因,电缆故障频繁发生。目前,国家电网公司系统高压电缆线路总长度已超过3万公里。近年来,高压电缆故障每年数十次,分布在电缆和附件的不同位置,故障原因多样化。每年组织电缆线路故障分析也是一项非常重要的工作。
一般情况下,电缆敷设在地下通道中。一旦发生故障,抢修工作时间紧,难度大。对电缆故障原因的分析既专业又耗时,甚至很多线路故障由于缺乏专业人员的协助很难找到真正的故障原因。这是全国很多运维单位的通病。当一些重要的高压电缆线路发生故障时,公司相关部门会组织专家对故障现象进行分析论证,得出故障原因,并给出解决问题的建议。近年来,国内形成了许多典型的电缆故障案例,但公司系统对这些高压电缆故障案例的管理缺乏有效的信息化手段,现有的许多故障案例资源只能成为单一案例,对其他故障案例没有起到判断和学习的作用。
为提高系统运行的可靠性,线路故障发生后,运维单位首先要尽快有效恢复线路运行,并尽快对故障案例进行分析总结,提出维护意见和相应的整改措施,避免类似故障再次发生。目前全国电缆数量庞大,基层运维管理专业人员相对紧张,人工分析电缆故障难度较大。因此,采用人工智能技术建立电缆故障快速分析方法日益迫切。
随着大数据处理和人工智能技术的快速进步,当今世界已经步入互联互通的信息时代。针对专业大数据分析能力弱、非结构化运检大数据无法综合分析等突出问题,作者以我公司PMS系统与精益管控平台的运维信息交互为切入点,运用大数据处理技术和人工智能技术,建立了标准化的电缆故障案例库。研究了智能故障分析算法,建立了智能电缆故障判断系统。该系统基于大数据挖掘技术和知识图谱关联分析技术,能够将故障案例的特征条件与历史数据进行智能匹配,推荐相似的故障案例和故障原因,最终生成专业的故障分析报告,辅助运维人员对电缆线路故障进行维护和处理,可以大大提高电缆线路故障分析的效率。
1知识地图的核心技术
知识地图具有很强的可扩展性和表达性。当知识被表达时,它可以从各种粒度来表达。要充分利用地图的表达能力,使其能够为不同的应用场景和不同的业务需求提供服务。知识地图的结构不仅包括知识地图本身的逻辑结构,还包括构建知识地图时采用的技术结构,如图1所示。
图1知识地图框架示意图
为了使地图集资源的内容能够被计算机理解,需要赋予知识内容一个特殊的语义描述框架。语义框架作为一种描述资源的机制,可以描述任何领域的资源。它通过由模式定义的类和属性来描述个体之间的关系。在RDF中,知识总是以三元组的形式出现;RDF中的主语是个体,个体是类的实例;RDF中的谓词是一个属性,它可以连接两个个体,或者一个个体和一个数据类型的实例。
它为RDF知识地图数据的存储和查询提供了详细的规范描述,具体的研究实现只需要遵循标准即可。
1.1知识标注
因为标注知识文档的效果是主观的,需要人工干预和审批来判断标注结果是否准确合理。本文采用的人工干预是让人工专家认可机器标注的结果,即人工标注。对专家机贴标结果不满意的标签进行修改,提高整体贴标效果。自动标注会通过TF-IDF、Jaccard、知网的语义相似度得到自动标注的结果,而人工标注会通过人工标注技术以网页的形式对标注结果进行修正。
1.2知识整合
1.2.1模式匹配
模式匹配主要寻找本体中属性和概念的对应关系:
利用线缆结构、WordNet词典等信息进行模式匹配,然后对整合结果进行加权平均,再对部分模式进行检查,删除导致属性不一致的对应关系。循环这个过程,直到没有发现新的对应。
通过基于词的相似度计算算法,如编辑距离和N-Gram,对结果进行加权,然后合并。概念和相关背景知识的层次关系也需要考虑,最后合并。
锚系统用于处理大规模本体。这个系统的起点是来自两个本体的一对相似的概念。要找出匹配的概念,需要根据这些概念的父概念、子概念等邻居信息,一点一点地构建小块。新锚点是新找到的匹配概念,然后构造新的片段。重复这个过程,直到找不到新的匹配概念对。
采用分而治之的思想处理大规模本体,将局部结构划分成组块,然后基于这些组块匹配锚点。这个锚点是指预先匹配的实体对,最好从匹配的组块中找出对应的属性和概念。现有的匹配方法基本都是将多种算法结合起来,然后通过加权求和或者加权平均的方式进行结合。但是,由于局部结构不对称,这种方法是不够的。
提出了基于贝叶斯决策的风险最小化的动态合并方法,通过本体的特征计算每个实体对的相似度来动态选择和合并匹配算法。由于灵活性强,带来了很好的搭配效果。
1.2.2实例匹配
实例匹配通过评估异构知识源之间的相似实例对,确定是否存在指向给定领域的相同实体的实例。基于快速相似度计算的实例匹配方法。这种方法的思想是尽可能降低每次相似度计算的时间复杂度,即降低o,因此在映射过程中只能使用简单快速的匹配器,要考虑的映射线索必须尽可能简单,这样才能保证T接近常数o。
快速相似度计算方法中使用的匹配器主要包括文本匹配器、结构匹配器和基于案例的匹配器等。许多基于文本相似度的匹配算法具有较低的时间复杂度,但是为了快速计算元素的相似度,文本匹配器应该避免构造复杂的映射线索。
比如映射线索只考虑元素标签和标注信息,大规模知识图谱匹配中的结构匹配器通过概念层次或元素近邻文本相似度的启发式规则计算相似度。例如,如果两个实例的父概念相似,则这两个实例相似,等等。为了避免匹配时间复杂度过高,这些启发式规则无法考虑太复杂的结构信息。实例匹配通常需要通过分类、规则、聚类等方法实现大规模地图分割。同时,并行处理技术可以进一步提高匹配结果的质量。
1.3基于知识地图的语义搜索
基于图谱的语义搜索不同于传统互联网上的文献检索。语义搜索可以更细粒度地处理结构化语义数据。
面向文档的信息检索主要通过轻量级的语法模型,即目前占主导地位的关键词模型——词袋模型,来表达用户的检索需求和资源。这种技术在主题搜索上有很好的效果,即给定一个主题检索相关文档,无法应对更复杂的信息检索需求。相比较而言,基于数据库和知识库的检索系统可以使用表达能力更强的模型来表达用户的需求,并利用数据的内在结构和语义关联来允许更复杂的查询,从而提供更准确和具体的答案。
基于知识图谱的智能搜索整体技术框架自下而上主要分为四层:
数据层。即原始数据层,各种用户数据,访问信息,日志等数据。数据类别主要是非结构化数据、半结构化数据和结构化数据。
存储层。包括搜索数据存储和三重知识地图数据存储。
搜索图层。包括搜索配置、搜索核心模型和搜索分析,其中搜索配置主要包括分词策略配置、同义词设置、黑白名单配置等基本搜索配置项。核心搜索模型包括自然语言处理模型、基于知识地图的意图识别模型和学习排序模型等。搜索主要提供对搜索内容和搜索结果的基本分析功能。
界面层。即对外提供的所有搜索相关的界面,主要包括主搜索界面、智能提示界面和相关搜索界面。
1.4基于知识地图的问答
给出一个自然问题后,会对其进行语义理解和分析,然后通过知识库对分析结果进行搜索和推理,得到最终答案。一个完整的基于知识地图的问答系统需要包括几个模块,即命名实体识别、会话完成、意图识别和基于知识地图的查询构建。同时,为了提高问答系统的交互体验,可以从以下几个方面进行部署和实现,包括相关问题推荐、问题提示等。
2电缆知识图谱的构建和故障诊断
2.1总体结构
知识地图中的知识来自结构化、半结构化和非结构化的信息资源,如图1所示。通过知识抽取技术,可以从不同结构和类型的数据中抽取出计算机能够理解和计算的结构化数据,以供进一步分析和利用。从不同来源、不同结构的数据中获取知识,然后提取知识得到结构化的知识,存储在知识图谱中。
目前,知识获取是通过专家方法来完成的。基于历史故障案例的逻辑关系和专家人工审核意见,结合基本线路信息和故障现象信息,共同提取故障特征条件,汇总后形成知识。知识获取可以分为概念、关系和属性,形成一个庞大的语义网络图,节点代表实体或概念,边由属性或关系组成。
图2应用程序架构
电缆故障知识图谱构建和应用设计的应用架构应分为应用层、服务层、支撑层和数据层四个模块,如图2所示。应用层包括故障知识搜索、故障分析页面、缺陷问答等。服务层包括图像分析模型、查询服务、文档管理、知识点推荐等。支撑层包括知识提取、知识计算、知识建模、实体集成等功能;数据层主要包括知识存储等功能。
2.2电缆故障图的构建
电缆故障图的概念包括:功率单元、电缆线路、关联厂商、故障信息、故障类别、故障类别、故障特征描述、故障原因;该图包括:电缆线路所属的电力单位、与电缆线路关联的生产厂家、电缆线路和通过线路信息的故障信息、通过故障名称与故障类别、介质类别、特征描述和原因的故障信息。
根据数据模板导入电缆故障结构化数据,通过构建的知识地图模型实现全局构建。知识检索从目标节点出发,查询相关方,探索节点之间的关系。如图3所示,电缆故障诊断程序是:
电缆线路故障发生后,工作人员通过查询线路档案信息、在故障现场观察、辅助一些必要的测试,可以获得故障的现象信息,经过整理汇总后可以作为诊断故障元件的特征条件。
在故障诊断界面输入故障特征条件,通过故障特征搜索相关信息,探索相关方故障案例的描述语句。
建立的电缆故障案例库按照故障类别-故障类别-故障特征描述进行分类。因此,诊断搜索也按此顺序执行。例如,对于一个索体故障,先搜索故障类别,再搜索建筑安装类别中的故障类别,最后通过具体的故障特征描述,确定匹配度最高的历史故障案例信息。
通过对上述关系检索诊断出的匹配案例进行分析,获得故障原因作为诊断结果的输出。在诊断界面的最后,会打印一份诊断报告。诊断报告的内容包括故障概述、故障现象和分析、结论和建议。
图3诊断模型案例
2.3电缆故障诊断系统
基于上述知识地图故障诊断模型,本文建立了一个电缆故障诊断系统。系统的输入参数包括基本信息和故障特征信息。基本信息包括:线路名称、所属单位、电缆制造商或附件制造商、调试时间、电压等级、运行寿命、电缆及附件的规格型号等。故障特征信息包括:故障类型。如果故障类型为本体,则需要确定故障类型的主要类型和中间类型。如果故障类型是接头或附件,则需要确定接头或附件的类型以及击穿通道的位置。最后给出故障描述,并附上分析图。平台输出参数主要包括故障原因和建议,其中故障原因根据不同因素分为三级原因和具体原因。最后向运维人员提供相应的维护建议。图4是电缆故障诊断软件的界面。
图4电缆故障诊断页面
3结论
本文对近10年来电缆故障的历史案例数据进行结构化处理,建立了电缆故障案例数据库。通过提取历史故障数据的特征信息,构建电缆故障知识图谱,利用人工智能技术建立故障诊断模型。通过故障特征条件的智能匹配,实现故障原因的快速分析,给出故障维护建议,大大缩短了电缆线路的故障分析周期。
原文发表在《现代信息技术》2020年第21期。作者:中国电力科学研究院有限公司邓先波、费雯·丽