作为一名资深的安企CMS网站运营人员,我深知网站服务的稳定性和可靠性是内容运营成功的基石。AnQiCMS以其Go语言的高效特性和简洁架构,为我们提供了坚实的基础,但如何在实际部署中确保其启动与停止的健壮性,特别是进程管理,是我们需要精细化打磨的关键环节。
今天的文章,我们将深入探讨如何在AnQiCMS的启动脚本中引入更健壮的PID(进程ID)文件管理机制,以避免常见的进程僵尸、端口占用或服务意外中断等问题,确保我们的AnQiCMS站点始终稳定运行。
为什么需要更健壮的PID文件管理?
在AnQiCMS的部署实践中,我们可能会遇到这样的场景:AnQiCMS服务意外崩溃,但系统却误认为它仍在运行;或者尝试启动新实例时,因旧进程未完全终止而导致端口冲突。现有的启动脚本(如start.sh中通过ps -ef | grep来判断进程是否存在)虽然简单,但在复杂或异常情况下,它存在一定的局限性。
例如,grep命令可能会误判:当其他无关进程的名字或参数中恰好包含“anqicms”时,它可能错误地报告AnQiCMS正在运行,从而阻止新实例的启动。此外,如果服务崩溃,grep可能无法识别其为“僵尸进程”或已终止但未清理的进程,这会导致PID文件滞留或不准确,给后续的操作带来困扰。
PID文件(Process ID file)正是为了解决这些问题而生。它是一个简单的文本文件,用于存储正在运行的特定进程的唯一标识符(PID)。通过PID文件,我们可以精确地追踪和管理单个服务实例,确保每次操作都基于准确的进程状态。
AnQiCMS现有启动/停止脚本回顾
让我们先回顾一下AnQiCMS提供的start.sh和stop.sh脚本的简化版:
start.sh:
BINNAME=anqicms
BINPATH=/www/wwwroot/anqicms
exists=`ps -ef | grep '\<anqicms\>' |grep -v grep |wc -l`
if [ $exists -eq 0 ]; then
# ... 启动AnQiCMS进程 ...
cd $BINPATH && nohup $BINPATH/$BINNAME >> $BINPATH/running.log 2>&1 &
fi
这个脚本主要通过grep来检查进程数量,如果为0则启动。
stop.sh:
BINNAME=anqicms
BINPATH="$( cd "$( dirname "$0" )" && pwd )"
exists=`ps -ef | grep '\<anqicms\>' |grep -v grep |awk '{printf $2}'`
if [ $exists -eq 0 ]; then
# ... 未运行 ...
else
kill -9 $exists # 直接强制终止
fi
停止脚本同样依赖grep获取PID,并使用kill -9强制终止。这种方式可能导致AnQiCMS服务无法进行必要的资源清理,如关闭数据库连接、保存临时数据等。
引入健壮的PID文件管理机制
为了克服上述局限性,我们将对start.sh和stop.sh进行改造,引入PID文件的创建、验证、使用和清理。
核心思想:
- 启动时:检查PID文件。如果文件存在,读取PID并验证该进程是否真的在运行。若运行,则拒绝启动;若未运行,则视为旧的PID文件并删除。然后,启动AnQiCMS,将其PID写入新的PID文件。
- 停止时:检查PID文件。如果文件存在,读取PID并验证进程是否在运行。若运行,则尝试发送SIGHUP或SIGTERM信号(允许优雅关闭),等待一段时间;若仍未停止,再发送SIGKILL(强制终止)。最后,无论成功与否,都删除PID文件。
1. 定义PID文件路径
首先,我们需要为AnQiCMS的每个实例指定一个唯一的PID文件路径。通常,我们会将PID文件放置在AnQiCMS安装目录的根部或一个专门的run目录下。
PID_FILE="$BINPATH/anqicms.pid"
2. 改造启动脚本 (start.sh)
这个版本的start.sh将更加智能,能够处理PID文件存在、进程仍在运行或PID文件过时等多种情况。
#!/bin/bash
### check and start AnqiCMS with robust PID management
# author fesion
# the bin name is anqicms
BINNAME=anqicms
BINPATH=/www/wwwroot/anqicms # 请根据实际路径修改
LOG_FILE="$BINPATH/running.log"
CHECK_LOG="$BINPATH/check.log"
PID_FILE="$BINPATH/$BINNAME.pid"
echo "$(date +'%Y%m%d %H:%M:%S') --- AnQiCMS startup script initiated ---" >> "$CHECK_LOG"
# 函数:检查PID是否正在运行
is_running() {
local pid=$1
if [ -z "$pid" ]; then
return 1
fi
# kill -0 PID 不发送任何信号,但会检查是否存在该进程ID的进程
kill -0 "$pid" > /dev/null 2>&1
return $?
}
# 检查PID文件是否存在
if [ -f "$PID_FILE" ]; then
CURRENT_PID=$(cat "$PID_FILE")
echo "$(date +'%Y%m%d %H:%M:%S') PID file found: $PID_FILE, PID: $CURRENT_PID" >> "$CHECK_LOG"
if is_running "$CURRENT_PID"; then
echo "$(date +'%Y%m%d %H:%M:%S') AnQiCMS is already running with PID $CURRENT_PID. Exiting." >> "$CHECK_LOG"
echo "AnQiCMS is already running with PID $CURRENT_PID. Exiting."
exit 1 # 服务已经在运行,退出
else
echo "$(date +'%Y%m%d %H:%M:%S') Stale PID file found. Removing $PID_FILE." >> "$CHECK_LOG"
rm -f "$PID_FILE" # PID文件存在但进程已死,删除旧文件
fi
else
echo "$(date +'%Y%m%d %H:%M:%S') PID file not found. Proceeding with startup." >> "$CHECK_LOG"
fi
# 启动AnQiCMS进程
echo "$(date +'%Y%m%d %H:%M:%S') Starting AnQiCMS..." >> "$CHECK_LOG"
cd "$BINPATH" && nohup "$BINPATH/$BINNAME" >> "$LOG_FILE" 2>&1 &
NEW_PID=$! # 获取后台启动进程的PID
echo "$NEW_PID" > "$PID_FILE" # 将PID写入文件
if is_running "$NEW_PID"; then
echo "$(date +'%Y%m%d %H:%M:%S') AnQiCMS started successfully with PID $NEW_PID." >> "$CHECK_LOG"
echo "AnQiCMS started successfully with PID $NEW_PID."
else
echo "$(date +'%Y%m%d %H:%M:%S') Failed to start AnQiCMS." >> "$CHECK_LOG"
echo "Failed to start AnQiCMS."
rm -f "$PID_FILE" # 启动失败,清理PID文件
exit 1
fi
说明:
is_running函数使用kill -0来检查进程是否存在,这比grep更精确。- 脚本会首先检查PID文件,并根据文件中的PID判断服务是否正在运行。
- 如果PID文件存在但对应进程已死,脚本会自动清理这个“陈旧”的PID文件。
- 成功启动后,将新的进程PID写入
anqicms.pid文件。 - 启动失败也会清理PID文件。
3. 改造停止脚本 (stop.sh)
这个版本的stop.sh将优先尝试优雅关闭,只有在超时后才强制终止。
”`bash #!/bin/bash
stop AnqiCMS with robust PID management
author fesion
the bin name is anqicms
BINNAME=anqicms BINPATH=”\(( cd "\)( dirname “\(0" )" && pwd )" # 获取脚本所在目录 CHECK_LOG="\)BINPATH/check.log” PID_FILE=”\(BINPATH/\)BINNAME.pid” GRACEFUL_TIMEOUT=10 # 优雅关闭等待秒数
echo “\((date +'%Y%m%d %H:%M:%S') --- AnQiCMS stop script initiated ---" >> "\)CHECK_LOG”
函数:检查PID是否正在运行
is_running() {
local pid=$1
if [ -z "$pid" ]; then
return 1
fi
kill -0 "$pid" > /dev/null 2>&1
return $?
}
检查PID文件是否存在
if [ -f “$PID_FILE” ]; then
TARGET_PID=$(cat "$PID_FILE")
echo "$(date +'%Y%m%d %H:%M:%S') PID file found: $PID_FILE, PID: $TARGET_PID" >> "$CHECK_LOG"
if is_running "$TARGET_PID"; then
echo "$(date +'%Y%m%d %H:%M:%S') Attempting graceful shutdown for AnQiCMS (PID: $TARGET_PID)..." >> "$CHECK_LOG"
kill "$TARGET_PID" # 发送SIGTERM信号 (15),尝试优雅关闭
# 等待进程优雅关闭
for i in $(seq 1 $GRACEFUL_TIMEOUT); do
if ! is_running "$TARGET_PID"; then
echo "$(date +'%Y%m%d %H:%M:%S') AnQiCMS (PID: $TARGET_PID) stopped gracefully." >> "$CHECK_LOG"
break
fi
sleep 1
done
if is_running "$TARGET_PID"; then
echo "$(date +'%Y%m%d %H:%M:%S') AnQiCMS (PID: $TARGET_PID) did not stop gracefully within $GRACEFUL_TIMEOUT seconds. Forcing shutdown..." >> "$CHECK_LOG"
kill -9 "$TARGET_PID" # 发送SIGKILL信号 (9),强制终止
sleep 1 # 确保进程有时间被系统终止
if ! is_running "$TARGET_PID"; then
echo "$(date +'%Y%m