优雅重启:Golang服务的平滑过渡

发表时间: 2021-04-11 14:55

问题背景

在一些日常开发复杂生产环境下,许多的操作需要在任何场景都要保证业务正常运行。

如果我们对线上服务进行简单粗暴更新,如下:

  1. kill -9 服务
  2. 再启动服务

那么将不可避免地出现以下两个问题:

  • 未处理完业务的请求,被迫中断,导致数据一致性遭到破坏
  • 重新启动服务过程中,一些请求无法进来,导致短暂的服务不可用现象

上面两种情况影响正常的业务,必然会造成一些影响,针对以上情形,一般有三种处理方案:

  1. 生产环境会通过四层(负载均衡器)->七层(网关)->服务,那么可以通过流量调度的方式实现平滑重启
  2. k8s容器编排管理,实现平滑重启
  3. 程序自身完成平滑重启,本文主要介绍这种方式

什么是平滑重启

进程在不关闭其所监听端口的情况下进行重启,并且重启的整个过程保证所有请求都能被正常不受影响的处理。

主要步骤:

  1. 原进程(父进程)先fork一个子进程出来,同时让fork出来的子进程继承父进程所监听的socket
  2. 子进程完成初始化后,开始接收socket的请求。
  3. 父进程停止接收新的请求,并将当下的请求处理完,等待连接空闲后,平滑退出。

信号(Signal)

服务的平滑重启,主要依赖进程接收的信号(实现进程间通信),这里简单的介绍Golang中信号的处理:

发送信号

  • kill命令允许用户发送一个特定的信号给进程
  • raise库函数可以发送特定的信号给当前进程

在Linux下运行man kill可以查看此命令的介绍和用法。

kill -- terminate or signal a process
The kill utility sends a signal to the processes specified by the pid operands.
Only the super-user may send signals to other users' processes.

常用信号类型

信号的默认行为:

  • term:信号终止进程
  • core:产生核心转储文件并退出
  • ignore:忽略信号
  • stop:信号停止进程
  • cont:信号恢复一个已停止的进程

信号

默认动作

说明

SIGHUP

1

Term

HUP (hang up):终端控制进程结束(终端连接断开)

SIGINT

2

Term

INT (interrupt):用户发送INTR字符(Ctrl+C)触发(强制进程结束)

SIGQUIT

3

Core

QUIT (quit):用户发送QUIT字符(Ctrl+/)触发(进程结束)

SIGKILL

9

Term

KILL (non-catchable, non-ignorable kill):无条件结束程序(不能被捕获、阻塞或忽略)

SIGUSR1

30,10,16

Term

用户自定义信号1

SIGUSR2

31,12,17

Term

用户自定义信号2

SIGKILL

15

KILL (non-catchable, non-ignorable kill)

TERM (software termination signal):程序终止信号

信号接收测试

package mainimport (    "log"    "os"    "os/signal"    "syscall")func main() {    sigsChan := make(chan os.Signal)    signal.Notify(sigs, syscall.SIGHUP, syscall.SIGINT, syscall.SIGTERM, syscall.SIGQUIT, syscall.SIGUSR1, syscall.SIGUSR2)    // 监听所有信号    log.Println("listen signal")    signal.Notify(sigsChan)    // 打印进程id    log.Println("PID:", os.Getppid())    s := <-sigsChan    log.Println("退出信号", s)}
go run main.go## --> listen signal## --> PID: 6808kill -s HUP 6808# --> Hangup: 1

实现案例

demo:

func main() {   sigsChan := make(chan os.Signal)   signal.Notify(sigs, syscall.SIGHUP, syscall.SIGINT, syscall.SIGTERM, syscall.SIGQUIT, syscall.SIGUSR1, syscall.SIGUSR2)   // 监听所有信号   log.Println("listen signal")   signal.Notify(sigsChan)   // 打印进程pid   log.Println("PID:", os.Getppid())   go func() {      for s := range sigsChan {         switch s {         case syscall.SIGHUP:            log.Println("startNewProcess...")            startNewProcess()            log.Println("shutdownParentProcess...")            shutdownParentProcess()         case syscall.SIGINT, syscall.SIGTERM, syscall.SIGQUIT:            log.PrintLn("Program Exit...", s)         case syscall.SIGUSR1:            log.Println("usr1 signal", s)         case syscall.SIGUSR2:            log.Println("usr2 signal", s)         default:            log.Println("other signal", s)         }      }   }()   <-sigsChan}

推荐组件

Facebookarchive/grace

shutdown优雅退出

go 1.8.x后,golang在http里加入了shutdown方法,用来控制优雅退出。

package mainimport (    "context"    "log"    "net/http"    "os"    "os/signal"    "syscall"    "time")func main() {    s := http.NewServeMux()    s.HandleFunc("/", func(w http.ResponseWriter, r *http.Request) {        time.Sleep(3 * time.Second)        log.Println(w, "Hello world!")    })    server := &http.Server{        Addr:    ":8090",        Handler: s,    }    go server.ListenAndServe()    listenSignal(context.Background(), server)}func listenSignal(ctx context.Context, httpSrv *http.Server) {    sigsChan := make(chan os.Signal, 1)    signal.Notify(sigs, syscall.SIGHUP, syscall.SIGINT, syscall.SIGTERM, syscall.SIGQUIT)    select {    case <-sigsChan:        log.Println("notify sigsChan")        httpSrv.Shutdown(ctx)        log.Println("http shutdown")    }}

小结

在日常的生产环境中,优雅地重启某个服务是一个不可缺少的环节,无论是在go进程层间,或者上层的服务流量调度层面,都有许多的不同方案,选择最适合方案,保证服务稳定才是最重要的。