运维系统的独特功能解析

发表时间: 2020-09-18 17:44

运维背景

对于互联网行业,运维主要指软件的运维,包括操作系统、数据库、中间件、虚拟化、云平台等。互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,以确保公司的互联网业务能够7×24小时为用户提供高质量的服务。运维人员对公司互联网业务所依赖的基础设施、基本服务、线上业务进行稳定性加强,进行日常巡检发现服务可能存在的隐患、对整体架构进行优化以及屏蔽常见的运行故障,提高业务的容灾能力,通过监控、日志分析等技术手段,及时发现和响应服务故障,减少服务中断的时间,使公司的互联网业务符号预期的可用性要求,持续稳定地为用户提供服务。OKCC呼叫中心运维特色体现在监控模块、日志模块、安装部署配置。

1 系统监控模块

OK-CC呼叫中心系统运营界面有监控模块,监控主要包括系统异常告警日志、用户操作日志、基本硬件配置图。下面请看详细内容

1.1 告警日志:告警日志即系统发出的异常告警信息,譬如网络太繁忙、硬盘资源不足、某模块死机、XX客户余额不足等告警类型信息。


客户可以根据系统的告警日志信息进行相应补救措施,方便系统持续稳定使用,同时遇到问题运维人员也可以在告警日志中查询定位问题,有利于问题的及时解决。

比如上面提示内存不足,预示着客户需要给系统加大内存,不然可能出现系统内存不足,部分业务做不了的现象;上面提示 redis服务死机,客户需要后台重启redis服务。这些工作如果客户不会,我们系统提供运维服务,会每天对客户的系统进行巡检,及时帮客户避免更大损失。


1.2 操作日志:即用户使用系统的操作明细,比如新建划账记录、添加SIP中继、导入主叫号码、系统登录退出等操作,记录包括操作时间、操作者、操作内容、操作结果,在运营出问题时最大程度来还原客户现场,如下图所示。

操作日志中操作结果可以显示大概用户出问题的场景,及时反馈问题,同时结合时间用户IP及其他日志进行问题定位。

1.3性能监控:性能监控主要包含了当日系统整体的资源使用情况,包括CPU、内存、硬盘、网络带宽、进程相关数据,如下图所示只举例了CPU监控图、内存监控图,其他类似,这里不详说。




2 系统日志模块

OK-CC呼叫中心系统除了上面的日志记录外,服务器后台有很多日志模块,比如:信令流程跟踪日志,业务流程跟踪日志,页面跟踪日志和进程异常退出日志。呼叫中心系统的日志限制单个文件大小,会区分当天日志与之前日志,每天晚上系统自动对当天日志进行打包备份。

2.1 信令流程跟踪日志

信令流程跟踪日志可以查看分机信息,可以跟踪信令流程,类似抓包,能了解到呼叫流程中主叫对应的终端分机号,携带媒体等。信令流程跟踪日志是记录通信层跟踪,常见就是通话不成功或录音听不到等,它们都可以通过分析信令流程(sip协议)来区分是系统问题还是环境问题,。

带媒体流,被叫号码,落地中继,是否经过转发。 信令流程跟踪日志默认保留一个星期,方便后期问题查找。下图只是简单举例,这里不再详说。

2.2 业务流程跟踪日志

业务流程跟踪日志是记录在信令层之上业务流程,比如长签、sip线路、计费相关的都有记录。业务流程可以反映客户所使用的具体业务,通过业务流程模拟客户业务场景,从而方便复现客户问题。业务流程跟踪日志可以区分前端逻辑问题还是后端通信问题。如下图:



2.3 页面跟踪日志

客户在浏览器上打开系统,点击F12按钮,都可以查看到发送的http请求,点击请求切到Preview,我们可以看到任务的各项后台参数及其具体的值,打开后台的调试开关,我们甚至可以看到请求执行的sql语句与返回结果,包括报错的代码位置,这方便进行错误定位,通常在于做某操作时弹出服务器错误、参数错误、无任何响应等现象的一种定位问题手段。如下图所示,大致含义为:字段列表中出现未知字段。



这些错误除了现场定位外,后期也会在 nginx日志和php-fpm日志中写入,方便后期查看问题。nginx日志主要记录报服务器异常类错误的日志,而php-fpm主要表现在页面应用的CPU与内存管理方面。系统php-fpm提供了十分强大的参数可配置功能,我们可以根据实际的业务进展与php-fpm的负反馈信息来对进程参数调优,以达到页面体验效果最优。

2.4 进程异常退出日志

系统各个模块异常退出都有日志记录,如段错误文件,redis退出,license授权退出等。如下图描述就是:licc fail ,看出license授权异常退出问题。


3 系统安装部署配置

OK-CC安装部署实现自动化脚本,安装过程中会自动检测版本配置,同时提供最优配置建议,安装过程中提供建议文档,方便客户针对自己的系统进行最优化配置,如果客户不会,可以反馈给我们运维人员,让运维人员按指示调试,保证系统正常稳定运行。同时我们每天都安排有值班运维人员,可以随时给客户答疑与技术支持。

4 系统运维跟踪特点

1.运维日志已覆盖系统中绝大部分的日常工作,包括性能监测、web操作日志、模块异常退出日志等

2.运维人员除了给客户解答系统日常使用支持外,还提供主动运维服务,主动服务的工作内容包括:远程监控、现场巡检、技术培训、服务反馈。

3.随时支持客户新需求,定期进行产品升级,做好受理服务。