如何做好IT运维管理工作?

核心提示1、深层次的IT资源监控当IT资源出现故障的时候,我们的第一反应就是快速的定位故障的根本原因以及故障影响哪些业务部门、哪些业务。以前是否出现过类似的问题,是否有成型的解决方案等等。要想能快速的定位故障的根本原因,首先我们就要做到对IT资源深

1、深层次的IT资源监控当IT资源出现故障的时候,我们的第一反应就是快速的定位故障的根本原因以及故障影响哪些业务部门、哪些业务。以前是否出现过类似的问题,是否有成型的解决方案等等。要想能快速的定位故障的根本原因,首先我们就要做到对IT资源深层次的监控。特别是对于一些应用的监控,通过指标来量化资源的健康程度。当资源出现故障时,能快速定位到问题关键性能指标。

2、建立对业务影响范围的判断机制

当资源出现故障的时候,我们需要快速的了解他会对哪些业务部门,哪些业务造成影响。所以我们必须有一种合理规范的机制来判断。并且当同时出现几个故障时,系统能判断服务所影响业务的重要性,以此来判断恢复故障的优先级。另外我们还得有KPI报表,统计服务的可用性。

3、自动关联同类故障

当资源出现故障时,如果能自动关联同类故障,那么将大大的提高我们处理故障的效率,提升IT服务的水平。通过知识提交、审核、发布、查询等功能自动沉淀IT部门日常运维中的工作经验,帮助各级支持人员提高技能水平,简化IT服务任务,同时降低对具体个人的依赖。并且知识库要和FAQ紧密的结合在一起,真正的提升运维的效率。

4、拓展IT服务途径,提升服务质量

建立运维人员与用户之间的联系点,统一受理用户的咨询、服务请求、故障报修、投诉等情况。并且当用户能通过FAQ查询以前出现过得同类故障。这样用户可以自己解决问题,从而降低运维人员的工作量,提升运维效率,提高用户的满意度。

天天客服IT运维基于ITIL的最佳实践经验,为用户提供运维管理流程,并提供了基于ITIL的岗位定义、流程设计工具、表单设计工具、基于ITIL的流程模板和各种元素库,帮助企业在进行IT运维管理工作时,不仅能够有效的、有序的进行事故管理、问题管理、配置管理、变更管理、发布管理,达到服务支持的目的,也能够提供服务级别管理、可用性管理、能力管理,达到服务交付的目的。

企业如何选择IT运维系统,来解决IT运维管理难题

目前许多企业的IT运维已经实现从人工运维到计算机管理,但延展咨询在同客户的交流中发现其中很多企业的IT运维管理还只是处在“半自动化”的运维状态。因为这种IT运维仍然是等到IT故障出现后再由运维人员采取相应的补救措施。这些传统式被动、孤立、半自动式的IT运维管理模式经常让IT部门疲惫不堪,主要表现在以下三个方面:

(1)运维人员被动、效率低

在IT运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维本身质量很难提高,导致IT部门和业务部门对IT运维的服务满意度都不高。目前绝大多数的企业IT运维人员日常大部分时间和精力是处理一些简单重复的问题,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,,使到IT运维人员的工作经常是处于被动“救火”的状态,不但事倍功半而且常常会出现恶性连锁反应。

(2)缺乏一套高效的IT运维机制

目前许多企业在IT运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,使到问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决方案,也缺乏全面的跟踪记录。

(3)缺乏高效的IT运维技术工具

随着信息化建设的深入,企业IT系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让IT运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。出现这些问题部分原因是企业缺乏事件监控和诊断工具等IT运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速处理。

1、无法统一协调,导致问题不能及时解决

随着国家大部委制的整合进程逐渐加快,问题暴露得更加明显。原本独立的两套IT系统,现在要完成协同办公,多部门统一协调管理则面临不小的挑战。当两个部委在业务流程上有重合时,就难免发生推卸责任,纠缠不清的扯皮事件。诸如不能上网这样的简单问题,很可能会牵涉到几个部门之间配合。而问题出现时,A部门找B部门反馈,B部门又找C部门处理,C可能说是D部门的问题;信息中心主任找科长,科长找科员,科员找支持,这样导致很简单的问题无法得到及时有效的处理,影响的不仅仅是业务本身,部门之间也会怨声载道。

问题不仅在政府行业中出现,很多企业也会面临。根本原因是各部门之间无法形成统一协调的IT系统管理,问题得不到有效的跟踪,也就谈不上及时解决。现在,如何实现各部门之间的统一协调,以及如何对问题进行有效的跟踪和量化的管理已经成为政府和企业不得不着手解决的难题。

2、原因不清,导致问题无法根治

如果说统一协调管理问题不得不解决,那么当IT系统的某个流程出现问题时,往往因为找不到故障原因,而无法从根本解决问题的情况,却成为企业很难解决的问题。举个最简单的例子,当员工反应上网速度变慢时,网络运维人员查找了半天问题,也许会想到非法流量占用带宽,但网络中的应用繁多,哪种应用才是罪魁祸首?无法判断哪些P2P是正常应用,哪些是非法应用?到底是外来攻击造成的安全问题还是确实该增加带宽?这种情况对于缺乏管理工具的IT部门来说,很难找到答案。就算是对网络应用进行优化,但没有相应的监控和分析工具,该对什么进行优化又衍生了新问题。

问题原因不清,给许多企业带来不小的麻烦。这使网络运维人员疲于奔波,却始终解决不了问题,挨累不讨好的事情令他们叫苦不迭。更为重要的是,因为找不到病根儿而导致问题无法根治,才是企业IT部门最为头痛和急需解决的事情。

3、对人的依赖,导致人员变更后的运维问题

在网络运维管理中,人的因素成为企业急需解决的第三个问题。有人会问,为什么是人呢?我们都清楚的知道人可以解决问题,这是人在网络运维管理中起到的重要作用,也是无须质疑的。但问题也同样随之而来,如果一个熟练运维人员的岗位发生变更,当问题在出现时,就很难得到迅速处理。即使会有新人继承前人的工作,但他却无法继承前人的运维经验,这成为企业运维成本增加,重复投资的重要原因。

对人的依赖越大,网络管理中的不稳定因素就越多。在企业的IT系统中,如何减少对人的依赖,避免出现因人员变更导致运维无法有效进行,是企业IT部门面临的重大考验。

IT系统谁来运维,谁来管理

上述三个问题存在一个共同点,那就是人与网络运维管理之间的关系,或者说人在网络运维管理中起到的作用能否被量化和标准化,将决定这三个问题能否得到根本的解决。事实上,通过运维管理工具,可以跟踪事件的流程,实现整个IT系统的统一与协调;通过运维管理工具,帮助运维人员监控和定位问题根源;通过知识库的积累可以有效解决人员变更后的管理问题。可以说,IT系统不仅仅需要人的运维,为了发挥IT系统的最大作用,利用工具来量化、标准化管理,已经成为企业网络管理的一个趋势,这是符合客观发展规律的。

那么也许有人会说,我们很多年前就已经利用工具来管理网络和IT系统了!没错,这是事实,但前面提到三个急需解决的问题,恰恰是在已经部署网管系统的政府部门或企业中发生的,他们的IT基础设施相对比较完善,也部署了相关的管理工具,但问题还是有,依然无法保障IT系统的发挥最大的作用,甚至影响到业务流程。为什么会出现这种情况呢?广通信达公司董事长徐育毅认为,根本原因在于IT服务部门没有真正的从成本中心向价值中心转变。

他认为IT部门不能只停留在日常的支持运维水平,不能局限于企业中的一个封闭部门,必须使IT部门适应公司其他业务部门的需求,以服务流程为驱动,以服务交付为核心,沟通和连接企业的业务与技术平台,只有这样才能从根本上解决上述问题。

徐育毅显然对企业IT系统的运维与管理非常了解,但我们都清楚的知道,要使IT部门成为沟通连接企业业务和技术的平台,就必须要有合适的管理工具,帮助企业的IT服务部门实现标准化运维,量化管理,从而摆脱人的制约。这种管理工具应该融入国际倡导的ITIL服务管理理念,达到技术、人员和流程三方面的整合。这种管理工具至少应该具备下面几个特点:

统一的运行展现:可以给运维管理人员提供网络管理、业务应用管理、机房环境等资源监控系统的集中展现与处理平台,这即方便运维人员操作,也解决了IT系统的统一协调问题;

问题的管理功能:可以帮助运维人员查明突发事件或错误产生的根本原因,并制定解决问题的方案和防止错误再次发生的有效措施;

变更的管理:通过分析、计划、执行和回顾四个阶段,最大限度控制变更的风险,保持企业IT部门和客户之间的信息沟通,这不但降低了对人的依赖,而且还实现了运维的量化、标准化管理;

符合ITIL管理理念中的知识库:通过知识提交、审核、发布,以及查询等功能自动积累IT部门的日常运维的工作经验,从而帮助各级支持人员提高技能水平,简化IT服务认为,也最大程度的降低了对具体个人的依赖。

 
友情链接
鄂ICP备19019357号-22