如何在 AnQiCMS 启动脚本中添加更健壮的 PID 文件管理机制?

作为一名资深的安企CMS网站运营人员,我深知网站服务的稳定性和可靠性是内容运营成功的基石。AnQiCMS以其Go语言的高效特性和简洁架构,为我们提供了坚实的基础,但如何在实际部署中确保其启动与停止的健壮性,特别是进程管理,是我们需要精细化打磨的关键环节。

今天的文章,我们将深入探讨如何在AnQiCMS的启动脚本中引入更健壮的PID(进程ID)文件管理机制,以避免常见的进程僵尸、端口占用或服务意外中断等问题,确保我们的AnQiCMS站点始终稳定运行。

为什么需要更健壮的PID文件管理?

在AnQiCMS的部署实践中,我们可能会遇到这样的场景:AnQiCMS服务意外崩溃,但系统却误认为它仍在运行;或者尝试启动新实例时,因旧进程未完全终止而导致端口冲突。现有的启动脚本(如start.sh中通过ps -ef | grep来判断进程是否存在)虽然简单,但在复杂或异常情况下,它存在一定的局限性。

例如,grep命令可能会误判:当其他无关进程的名字或参数中恰好包含“anqicms”时,它可能错误地报告AnQiCMS正在运行,从而阻止新实例的启动。此外,如果服务崩溃,grep可能无法识别其为“僵尸进程”或已终止但未清理的进程,这会导致PID文件滞留或不准确,给后续的操作带来困扰。

PID文件(Process ID file)正是为了解决这些问题而生。它是一个简单的文本文件,用于存储正在运行的特定进程的唯一标识符(PID)。通过PID文件,我们可以精确地追踪和管理单个服务实例,确保每次操作都基于准确的进程状态。

AnQiCMS现有启动/停止脚本回顾

让我们先回顾一下AnQiCMS提供的start.shstop.sh脚本的简化版:

start.sh

BINNAME=anqicms
BINPATH=/www/wwwroot/anqicms
exists=`ps -ef | grep '\<anqicms\>' |grep -v grep |wc -l`
if [ $exists -eq 0 ]; then
    # ... 启动AnQiCMS进程 ...
    cd $BINPATH && nohup $BINPATH/$BINNAME >> $BINPATH/running.log 2>&1 &
fi

这个脚本主要通过grep来检查进程数量,如果为0则启动。

stop.sh

BINNAME=anqicms
BINPATH="$( cd "$( dirname "$0"  )" && pwd  )"
exists=`ps -ef | grep '\<anqicms\>' |grep -v grep |awk '{printf $2}'`
if [ $exists -eq 0 ]; then
    # ... 未运行 ...
else
    kill -9 $exists # 直接强制终止
fi

停止脚本同样依赖grep获取PID,并使用kill -9强制终止。这种方式可能导致AnQiCMS服务无法进行必要的资源清理,如关闭数据库连接、保存临时数据等。

引入健壮的PID文件管理机制

为了克服上述局限性,我们将对start.shstop.sh进行改造,引入PID文件的创建、验证、使用和清理。

核心思想:

  1. 启动时:检查PID文件。如果文件存在,读取PID并验证该进程是否真的在运行。若运行,则拒绝启动;若未运行,则视为旧的PID文件并删除。然后,启动AnQiCMS,将其PID写入新的PID文件。
  2. 停止时:检查PID文件。如果文件存在,读取PID并验证进程是否在运行。若运行,则尝试发送SIGHUP或SIGTERM信号(允许优雅关闭),等待一段时间;若仍未停止,再发送SIGKILL(强制终止)。最后,无论成功与否,都删除PID文件。

1. 定义PID文件路径

首先,我们需要为AnQiCMS的每个实例指定一个唯一的PID文件路径。通常,我们会将PID文件放置在AnQiCMS安装目录的根部或一个专门的run目录下。

PID_FILE="$BINPATH/anqicms.pid"

2. 改造启动脚本 (start.sh)

这个版本的start.sh将更加智能,能够处理PID文件存在、进程仍在运行或PID文件过时等多种情况。

#!/bin/bash
### check and start AnqiCMS with robust PID management
# author fesion
# the bin name is anqicms

BINNAME=anqicms
BINPATH=/www/wwwroot/anqicms # 请根据实际路径修改
LOG_FILE="$BINPATH/running.log"
CHECK_LOG="$BINPATH/check.log"
PID_FILE="$BINPATH/$BINNAME.pid"

echo "$(date +'%Y%m%d %H:%M:%S') --- AnQiCMS startup script initiated ---" >> "$CHECK_LOG"

# 函数:检查PID是否正在运行
is_running() {
    local pid=$1
    if [ -z "$pid" ]; then
        return 1
    fi
    # kill -0 PID 不发送任何信号,但会检查是否存在该进程ID的进程
    kill -0 "$pid" > /dev/null 2>&1
    return $?
}

# 检查PID文件是否存在
if [ -f "$PID_FILE" ]; then
    CURRENT_PID=$(cat "$PID_FILE")
    echo "$(date +'%Y%m%d %H:%M:%S') PID file found: $PID_FILE, PID: $CURRENT_PID" >> "$CHECK_LOG"
    if is_running "$CURRENT_PID"; then
        echo "$(date +'%Y%m%d %H:%M:%S') AnQiCMS is already running with PID $CURRENT_PID. Exiting." >> "$CHECK_LOG"
        echo "AnQiCMS is already running with PID $CURRENT_PID. Exiting."
        exit 1 # 服务已经在运行,退出
    else
        echo "$(date +'%Y%m%d %H:%M:%S') Stale PID file found. Removing $PID_FILE." >> "$CHECK_LOG"
        rm -f "$PID_FILE" # PID文件存在但进程已死,删除旧文件
    fi
else
    echo "$(date +'%Y%m%d %H:%M:%S') PID file not found. Proceeding with startup." >> "$CHECK_LOG"
fi

# 启动AnQiCMS进程
echo "$(date +'%Y%m%d %H:%M:%S') Starting AnQiCMS..." >> "$CHECK_LOG"
cd "$BINPATH" && nohup "$BINPATH/$BINNAME" >> "$LOG_FILE" 2>&1 &
NEW_PID=$! # 获取后台启动进程的PID
echo "$NEW_PID" > "$PID_FILE" # 将PID写入文件

if is_running "$NEW_PID"; then
    echo "$(date +'%Y%m%d %H:%M:%S') AnQiCMS started successfully with PID $NEW_PID." >> "$CHECK_LOG"
    echo "AnQiCMS started successfully with PID $NEW_PID."
else
    echo "$(date +'%Y%m%d %H:%M:%S') Failed to start AnQiCMS." >> "$CHECK_LOG"
    echo "Failed to start AnQiCMS."
    rm -f "$PID_FILE" # 启动失败,清理PID文件
    exit 1
fi

说明:

  • is_running函数使用kill -0来检查进程是否存在,这比grep更精确。
  • 脚本会首先检查PID文件,并根据文件中的PID判断服务是否正在运行。
  • 如果PID文件存在但对应进程已死,脚本会自动清理这个“陈旧”的PID文件。
  • 成功启动后,将新的进程PID写入anqicms.pid文件。
  • 启动失败也会清理PID文件。

3. 改造停止脚本 (stop.sh)

这个版本的stop.sh将优先尝试优雅关闭,只有在超时后才强制终止。

”`bash #!/bin/bash

stop AnqiCMS with robust PID management

author fesion

the bin name is anqicms

BINNAME=anqicms BINPATH=”\(( cd "\)( dirname “\(0" )" && pwd )" # 获取脚本所在目录 CHECK_LOG="\)BINPATH/check.log” PID_FILE=”\(BINPATH/\)BINNAME.pid” GRACEFUL_TIMEOUT=10 # 优雅关闭等待秒数

echo “\((date +'%Y%m%d %H:%M:%S') --- AnQiCMS stop script initiated ---" >> "\)CHECK_LOG”

函数:检查PID是否正在运行

is_running() {

local pid=$1
if [ -z "$pid" ]; then
    return 1
fi
kill -0 "$pid" > /dev/null 2>&1
return $?

}

检查PID文件是否存在

if [ -f “$PID_FILE” ]; then

TARGET_PID=$(cat "$PID_FILE")
echo "$(date +'%Y%m%d %H:%M:%S') PID file found: $PID_FILE, PID: $TARGET_PID" >> "$CHECK_LOG"

if is_running "$TARGET_PID"; then
    echo "$(date +'%Y%m%d %H:%M:%S') Attempting graceful shutdown for AnQiCMS (PID: $TARGET_PID)..." >> "$CHECK_LOG"
    kill "$TARGET_PID" # 发送SIGTERM信号 (15),尝试优雅关闭

    # 等待进程优雅关闭
    for i in $(seq 1 $GRACEFUL_TIMEOUT); do
        if ! is_running "$TARGET_PID"; then
            echo "$(date +'%Y%m%d %H:%M:%S') AnQiCMS (PID: $TARGET_PID) stopped gracefully." >> "$CHECK_LOG"
            break
        fi
        sleep 1
    done

    if is_running "$TARGET_PID"; then
        echo "$(date +'%Y%m%d %H:%M:%S') AnQiCMS (PID: $TARGET_PID) did not stop gracefully within $GRACEFUL_TIMEOUT seconds. Forcing shutdown..." >> "$CHECK_LOG"
        kill -9 "$TARGET_PID" # 发送SIGKILL信号 (9),强制终止
        sleep 1 # 确保进程有时间被系统终止
        if ! is_running "$TARGET_PID"; then
            echo "$(date +'%Y%m