服务器故障困扰,耗时一整天才解决

发表时间: 2024-02-16 17:45

2024年初六上班第一天,遇到首个服务器故障!非常奇怪!

故障机器介绍:

首先这台服务器是一台Windows server 2008 R2 的操作系统,上面安装的就是内网的一些小业务,一个是检测业务系统软件升级的,一个是互联网上员工用的联通内网业务。用的人不多,但是这是一台在分院的设备,我只能远程操作处理故障,分院是没信息技术人员上班的,过去分院要坐3个钟车

故障表现:

通过ping服务器,发现这台服务器一会在线,一会离线,反复出现,非常频繁。服务器的互联网业务系统表现为一直无法连接和使用。

处理过程:

我远程过去的时候,刚开始一直远程桌面连接不上,这时候要知道,这个服务器的机房是不止这一台服务器的,如果是网络设备的问题不可能只有这个服务器故障。过一会我用第三方内网远程软件连接却连接上了,非向日葵等,看到的界面是下面这样子的

一直卡在这个界面

可以看看服务器一直卡在正在应用计算机设置这个界面,用户名和密码界面一直没出来,等几分钟就离线了,过一会上线后又是卡在正在应用计算机设置这个界面。本地远程桌面怎么也登录不上,一直在报错。这时候我就怀疑服务器是不是操作系统损害或者被攻击了什么的,但也有可能重启一下就恢复,于是只能让分院一个水电工帮忙去机房拔线重启一下这个服务器,我也一直不好意思让他们去搞,一来怕他们搞错或者碰到其它线缆

确认断电重启过后,这个服务器故障表现还是和之前一样,这时候真的觉得奇怪了。难道真的是服务器操作系统文件损坏了?

由于不在现场,我也没什么办法,我于是就作手准备一台服务器更换了,还要重新部署各种应用和数据,工作量真不少。

期间服务器一直在线和离线的样子,但过了一会,由于我一直挂着第三方远程桌面软件,忽然我看到Ctrl +alt+delete的界面了,于是,我赶输入密码紧登录进去,发现服务器内的文件并没有什么异样啊,于是就想着杀毒、补丁和检查硬盘错误什么的一顿操作,但是这时候服务器忽然弹出下面这个窗口

弹出强制关机重启提示,无法取消

上面显示Windows已遇到关键问题,将在一分钟后重新启动。

我草,这时候我当然是赶紧来一段shutdown /a啊,然而敲这命令并没有什么卵用,被强制重启退出了,之后我又像前面一样登录不上了。这时候就知道了,原来服务器一直在不断地重启,服务器甚至在Ctrl+alt+delete都未加载出来的时候就被强制注销重启了,远程桌面的服务项都未启动就被注销重启了,以至于远程桌面一直连接不上。

于是我就等下一次什么时候可以登陆进去,打算看看系统日志,发觉很难登录,直到又过了不知多久又可以登录了,我赶紧打开日志看看关机的原因,看到有如下记录

系统有进程lsass.exe异常记录

导致关机的进程是lsass.exe,于是我上网各种爬文,什么病毒,什么系统漏洞一一排除后,发觉故障依然,这时候,我就怀疑会不会是来自互联网的攻击导致的,但这攻击的持续也太长时间了吧,我首先是将互联网的映射端口关闭,这样,外网就无法攻击也,然而依然没解决自动重启的故障。

最终找到故障原因

最后我又想起了服务器自动重启这个问题,之前也有过服务器操作系统因为没激活而每一小时自动关机的。难道是服务器自身操作系统的问题?和互联网有关?

我然后决定先完全断开这个服务器上互联网的权限,然后故障果然没再出现了。

竟然和服务器连互联网有关,但这个服务器有互联网的应用,怎么办?于是我利用出口防火墙的功能,重复演示了故障,找到了出现故障时外连的ip,我将这些ip加入到拒绝联通的策略,这样既排除了服务器的故障,又不妨碍服务器的互联网应用。

将找到的风险ip列表添加进策略,拒绝联通


利用设备找出导致故障的风险ip

后面,服务器运行了半天也没问题,至于为何服务器发起连接外网会导致服务器lsass.exe进程异常关机,这个就不太了解了,改服务器非常干净,没有安装多余的应用软件,系统漏洞补丁也一直安装完的,杀毒软件也全盘杀毒,可以排除木马病毒之类引起故障。

经验和反思:

这次故障从发现到解决几乎用了一天时间,因为服务器不在现场,如果在现场发现服务器不停重启,应该能够少很多疑惑。此次竟然是服务器再连互联网引起的故障,实在少见。