记聊天服务宕机事件

9月23日,农历8月14,中秋假期。

上午9点,领导微信语音通话说聊天服务挂了。

然后打开网站,果然挂了。

看异常日志,提示程序错误。

然后,果断回滚到上一个版本,还是错误。

然后,再恢复了前一个版本,依然不行。

连接到公司办公环境……

那只有分析异常日志了,可异常日志记录的堆栈信息只是说那个方法错误,没有具体的信息。

果断去掉异常捕捉try-catch,编译,上线。

服务器日志有错误,已经具体到底层方法和行数了,是log4net写日志错误。

然后恢复日志模块以前的版本,不行,依然写日志错误。

没办法,动手修改这个方法,上传。

这次写日志没错了。

再看操作系统日志,这次提示redis连接对象错误,然后怀疑redis连不上了。

由于是新服务器,没有安装redis客户端;然后下载RedisDesktopManager,从国外站点下载10MB真不容易,30KB/s;然后想把办公电脑的安装程序传到服务器上,总是断开(可能公司的路由器太垃圾);试了几次不行。然后就用winrar压缩成多个小的包,终于传到服务器上了。

安装,测试,………………redis果然不通…………¥!@##@#!@#@##¥@#¥%¥&…………%&

告诉领导redis服务不通……

领导看了阿云控制台,说忘了续费了,233233~

续费后,测试redis通了,聊天服务也一切正常了,真折腾啊!!

此时,3个小时已经过去了……本来中秋只放了两天假,这又少了半天,早饭还没吃……不饿。

 

总结:

  1. 主因是redis过期没有续费的原因。
  2. redis不通时,写log4net日志方法确实有错误。
  3. 异常日志记录的不够详细,如果记录了redis连不通异常,那就简单多了,也不用那么折腾;