限制同时运行脚本实例的个数 -- 串行化

原文链接：http://bbs.chinaunix.net/viewthread.php?tid=840050

【背景介绍】

大体上可以分为两种思路：

一、简单的方法是，用ps一类命令找出已经运行脚本的数量，如果大于等于2（别忘了把自己也算进去^_^），就退出当前脚本，等于1,则运行。这种方法简单是简单，不过有一些问题：

首先，ps取得脚本文件进程数量就有很多陷阱，例如有时无法ps到脚本文件的名称；

即使可以ps到脚本名，如果用到管道的话，由于子shell的原因，在大多数平台下会得到奇怪的结果，有时得到数字a，有时又得到数字b，让人无所适从；

就算计数的问题已经解决了，还有问题，不过不太严重：如果两个脚本实例同时计数，显然数字都应该等于2，于是两个都退出了。于是在这一时间点上没有一个脚本在执行；

二、加锁的方法。就是脚本在执行开始先试图得到一个“锁”，得到则继续执行，反之就退出。

加锁方法也存在一些问题，主要集中在两个方面：

其一，加锁时如何避免竞态条件（race condition）。即如何找到一些“原子”操作，使得加锁的动作一步完成，中间不能被打断。否则就可能出现下面的情况：

脚本1检测到没有锁被占用；

然后脚本2也检测到没有锁被占用；

脚本1加锁，开始执行；

然后脚本2(错误地)加锁，也开始执行；

看到吗，两个脚本在同时执行。:(

可能的一些加锁的“原子”操作有：

1.创建目录，当一个进程创建成功后其它进程都会失败；

2.符号链接：ln -s，一个链接创建后其它进程的ln -s命令会出错；

3.文件首行的竞争，多个进程以append的方式同时写到文件，只有惟一一个进程写到了文件的第一行，因为不可能有两个第一行。^_^

4.其它软件包的加锁工具，通常是c语言二进制程序，自己写的也行。

目前加锁时的问题已经可以解决。

其二，找到一种方法避免出现“死锁”的情况，这里是指：虽然“锁”被占用，但却没有脚本在执行。这通常在脚本意外退出，来不及释放占用的“锁”之后。如收到一些系统信号后退出，机器意外掉电后退出等。

对于前者的情况，可以用trap捕获一些信号，在退出前释放锁；但有些信号是无法捕获的。

对于后者，可以在机器重起后用脚本自动删除锁来解决。不过有点麻烦。

所以比较理想的是脚本自己来检测死锁，然后释放它。不过问题的难点在于如何找到一种“原子”操作，将检测死锁和删除死锁的动作一步完成，否则又会出现与加锁时同样的竞态条件的问题。例如：

进程1检测到死锁；

进程2监测到死锁；

进程1删除死锁；

进程x(也可能是进程1自己)加锁，开始运行；

进程2（错误地）删除死锁；

此时锁没有占用，于是任意进程都可以加锁并投入运行。

这样又出现了两个进程同时运行的情况。:(

可惜的是：在迄今为止的讨论之后，woodie还没有找到一种合适的“原子”操作。:(只是找到了一种稍微好些的办法：就是在删除时用文件的inode作标识，于是其它进程新建的锁（文件名虽然相同，但inode相同的机率比较微小）不容易被意外删除。这个方法已经接近完美了，可惜还是存在误删的微小几率，不能说是100%安全。唉，山重水复疑无路啊！:(

最近又有网友问起这个问题，促使我又再次思考。从我以前的一个想法发展了一下，换了一种思路，便有豁然开朗的感觉。不敢藏私，写出来请大家debug。^_^

基本的想法就是：借鉴多进程编程中临界区的概念，如果各个进程进入我们设立的临界区，只可能一个一个地顺序进入，不就能保证每次只有一个脚本运行了吗？怎样建立这样一种临界区呢？我想到了一种方法，就是用管道，多个进程写到同一个管道，只可能一行一行地进入，相应的，另一端也是一行一行地读出，如此就可以实现并行执行的多个进程进入临界区时的“串行化”。这与faintblue兄以前贴出的append文件的方法也是异曲同工。

我们可以让并行的进程同时向一个管道写一行请求，内容是其进程号，在管道另一端顺序读取这些请求，但只有第一个请求会得到一个“令牌”，被允许开始运行；后续的请求将被忽略，对应的进程没有得到令牌，就自己退出。这样就保证了任意时间只有一个进程运行（严格地说是进入临界区）。说到“令牌”，熟悉网络发展史的朋友可能会联想到IBM的Token Ring架构，每一时刻只能有一个主机得到令牌并发送数据，没有以太网的“碰撞”问题。可惜如同微通道技术一样，IBM的技术是不错，但最终还是被淘汰了。不错，这里令牌的概念就是借用于Token Ring。^_^

当一个进程执行完毕，向管道发送一个终止信号，即交回“令牌”，另一端接受到后，又开始选取下一个进程发放“令牌”。

您可能会问了，那么死锁问题又如何解决呢？别急，我在以前的讨论中曾提出将检测处理死锁的代码单独拿出来，交给一个专门的进程来处理的想法，这里就具体实践这样一种思路。当检测和删除死锁的任务由一个专门的进程来执行时，就没有多个并发进程对同一个锁进行操作，所以竞态条件发生的物质基础也就根本不存在了。^_^

再发展一下这个思路，允许同时执行多个进程如何？当然可以！只要设立一个计数器，达到限制的数字就停止发放“令牌”即可。

下面就是woodie上述思路的一个实现，只是在centos 4.2下简单地测试了一下，可能还有不少错误，请大家帮忙“除虫”。^_^思路上有什么问题也请不吝指教：

脚本1,token.sh，负责令牌管理和死锁检测处理。与下一个脚本一样，为了保持脚本的最大的兼容性，尽量使用Bourne shell的语法，并用printf代替了echo，sed的用法也尽量保持通用性。这里是由一个命名管道接受请求，令牌在一个文件中发出。如果用ksh也许可以用协进程来实现，熟悉ksh的朋友可以试一试。^_^

#!/bin/sh

#name: token.sh

#function: serialized token distribution, at anytime, only a cerntern number of token given out

#usage: token.sh [number] &

#number is set to allow number of scripts to run at same time

#if no number is given, default value is 1

if [ -p /tmp/p-aquire ]; then

  rm -f /tmp/p-aquire

fi

if mkfifo /tmp/p-aquire; then

  printf "pipe file /tmp/p-aquire created/n" >>token.log

else

  printf "cannot create pipe file /tmp/p-aquire/n" >>token.log

  exit 1

fi



loop_times_before_check=100

if [ -n "$1" ];then

  limit=$1

else

  # default concurrence is 1

  limit=1

fi

number_of_running=0

counter=0

while :;do

  #check stale token, which owner is died unexpected

  if [ "$counter" -eq "$loop_times_before_check" ]; then

    counter=0

    for pid in `cat token_file`;do

      pgrep $pid

      if [ $? -ne 0 ]; then

        #remove lock

            printf "s/ $pid///nwq/n"|ed -s token_file

            number_of_running=`expr $number_of_running - 1`

      fi

    done

  fi

  counter=`expr $counter + 1`



  #

  if [ "$number_of_running" -ge "$limit" ];then

    # token is all given out. bypass all request until a instance to give one back

    pid=`sed -n '/stop/ {s//([0-9]/+/) /+stop//1/p;q}' /tmp/p-aquire`

    if [ -n "$pid" ]; then

      # get a token returned

      printf "s/ $pid///nwq/n"|ed -s token_file

      number_of_running=`expr $number_of_running - 1`

      continue

    fi

  else

    # there is still some token to give out. serve another request

    read pid action < /tmp/p-aquire

        if [ "$action" = stop ]; then

          #  one token is given back.

          printf "s/ $pid///nwq/n"|ed -s token_file

          number_of_running=`expr $number_of_running - 1`

        else

          # it's a request, give off a token to instance identified by $pid

          printf " $pid" >> token_file

          number_of_running=`expr $number_of_running + 1`

        fi

  fi

done

--------------------------------------------------------------------------------------------

修订记录：

1.修正token.sh的一个BUG，将原来用sed删除失效令牌的命令用ed命令代替。感谢r2007和waker两位指出错误！

--------------------------------------------------------------------------------------------

脚本2：并发执行的脚本 -- my-script。在"your code goes here"一行后插入你自己的代码，现有的是我用来测试的。

#!/bin/sh

# second to wait that the ditributer gives off a token

a_while=1

if [ ! -p /tmp/p-aquire ]; then

  printf "cannot find file /tmp/p-aquire/n" >&2

  exit 1

fi

# try to aquire a token

printf "$/n" >> /tmp/p-aquire

sleep $a_while

# see if we get one

grep "___FCKpd___1quot; token_file

if [ $? -ne 0 ]; then

  # bad luck. :(

  printf "no token free now, exitting.../n" >&2

  exit 2

fi

# yeah, got token!

# be sure to return the token before we exit

trap 'printf "___FCKpd___1nbsp;stop/n" > /tmp/p-aquire' 0

trap "exit 3" 1 2 3 15



#get to run, your code goes here

printf "$: running.../n" >&2

sleep 5

printf "$: exitting.../n" >&2

#end of your code

限制同时运行脚本实例的个数 -- 串行化

继续阅读

CentOS7下TestLink环境的部署

软件测试基础_对应TestLink整理的测试计划流程步骤

七牛云-C#SDK-上传-前期准备

服务器配置——Apache

[转]iOS微信小视频优化心得

centOS7 配置 vsftpd 虚拟用户及权限Vsftpd配置虚拟用户及权限

linux-svn卸载与安装

vsftp虚拟多用户多权限一键部署脚本

拒绝用户登录:/bin/false和/usr/sbin/nologin

Shell编程——sort排序、uniq忽略重复、tr替换压缩删除、cut指定删除字段、正则表达式元字符sort 命令uniq 命令tr 命令cut 命令正则表达式

Linxu常用命令技巧汇总

配置网页内容访问

《Linux命令行与Shell脚本编程大全第2版.布卢姆》pdf

ACS基本配置-权限等级管理

无组件上传图片到数据库中，最完整解决方案

测试面试题整理