天天看點

linux核心 do_fork 函數源代碼淺析

前面已經談了核心加載與系統引導過程,下面我們來看看核心的 do_fork() 函數是如何建立一個新的程序的。

在 Linux 核心中,供使用者建立程序的系統調用fork()函數的響應函數是 sys_fork()、sys_clone()、sys_vfork()。這三個函數都是通過調用核心函數 do_fork() 來實作的。根據

調用時所使用的 clone_flags 參數不同,do_fork() 函數完成的工作也各異。

這部分内容簡單,我不打算就此而展開分析。下面我們重點來講解以下 do_fork() 函數的工作原理。

我們知道 do_fork() 函數生成一個新的程序,大緻分為三個步驟。

1、建立程序控制結構并賦初值,使其成為程序映像。這個過程完成以下内容。

在記憶體中配置設定一個 task_struct 資料結構,以代表即将産生的新程序。

把父程序 PCB 的内容複制到新程序的 PCB 中。

為新程序配置設定一個唯一的程序辨別号 PID 和 user_struct 結構。然後檢查使用者具有執行一個新程序所必須具有的資源。

重新設定 task_struct 結構中那些與父程序值不同的資料成員。

設定程序管理資訊,根據所提供的 clone_flags 參數值,決定是否對父程序 task_struct 中的指針 fs 、files 指針等所選擇的部分進行拷貝,如果 clone_flags 參數指明的是

共享而不是拷貝,則将其計數器 count 的值加 1 ,否則就拷貝新程序所需要的相關資訊内容 PCB 。這個地方是區分 sys_fork() 還是 sys_clone() 。

2、必須為新程序的執行設定跟蹤程序執行情況的相關核心資料結構。包括 任務數組、自由時間清單 tarray_freelist 以及 pidhash[] 數組。

這部分完成如下内容:

把新程序加入到程序連結清單中。

把新程序加入到 pidhash 散清單中,并增加任務計數值。

通過拷貝父程序的上、下文來初始化硬體的上下文(TSS段、LDT以及 GDT)。

3、啟動排程程式,使子程序獲得運作的機會。

這部分完成以下動作:

設定新的就緒隊列狀态 TASK_RUNING , 并将新程序挂到就緒隊列中,并重新啟動排程程式使其運作。

向父程序傳回子程序的 PID,設定子程序從 do_fork() 傳回 0 值。

下面就具體的 do_fork() 函數程式代碼進行分析(該代碼位于 kernel/fork.c 檔案中)

int do_fork(unsigned long clone_flags,unsigned long stack_start, struct pt_regs *regs,

                unsigned long stack_size)

{

        int                   retval;

        struct  task_struct   *p;

        struct  completion    vfork;

        retval = -EPERM ;

        if ( clone_flags & CLONE_PID )

        {

              if ( current->pid )

                      goto fork_out;

        }

        reval = -ENOMEM ;

        p = alloc_task_struct();    // 配置設定記憶體建立新程序的 task_struct 結構

        if ( !p )

               goto fork_out;

        *p = *current ;  //将目前程序的 task_struct 結構的内容複制給新程序的 PCB結構

        retval = -EAGAIN;

        //下面代碼對父、子程序 task_struct 結構中不同值的資料成員進行指派

        if ( atomic_read ( &p->user->processes ) >= p->rlim[RLIMIT_NPROC].rlim_cur

                && !capable( CAP_SYS_ADMIN ) && !capable( CAP_SYS_RESOURCE ))

                goto bad_fork_free;

        atomic_inc ( &p->user->__count);   //count 計數器加 1

        atomic_inc ( &p->user->processes); //程序數加 1

        if ( nr_threads >= max_threads )

               goto bad_fork_cleanup_count ;

        get_exec_domain( p->exec_domain );

        if ( p->binfmt && p->binfmt->module )

                  __MOD_INC_USE_COUNT( p->binfmt->module ); //可執行檔案 binfmt 結構共享計數 + 1 

        p->did_exec = 0 ;                                   //程序未執行

        p->swappable = 0 ;                                  //程序不可換出

        p->state = TASK_UNINTERRUPTIBLE ;                   //置程序狀态

        copy_flags( clone_flags,p );                        //拷貝程序标志位

        p->pid = get_pid( clone_flags );                    //為新程序配置設定程序标志号

        p->run_list.next = NULL ;

        p->run_list.prev = NULL ;

        p->run_list.cptr = NULL ;

        init_waitqueue_head( &p->wait_childexit );          //初始化 wait_childexit 隊列

        p->vfork_done  = NULL ;

        if ( clone_flags & CLONE_VFORK ) {

               p->vfork_done = &vfork ; 

               init_completion(&vfork) ;

        spin_lock_init( &p->alloc_lock );

        p->sigpending = 0 ;

        init_sigpending( &p->pending );

        p->it_real_value = p->it_virt_value = p->it_prof_value = 0 ; //初始化時間資料成員

        p->it_real_incr = p->it_virt_incr = p->it_prof_incr = 0 ;    //初始化定時器結構

        init_timer( &p->real_timer );

        p->real_timer.data = (unsigned long)p;

        p->leader = 0 ;

        p->tty_old_pgrp = 0 ;

        p->times.tms_utime = p->times.tms_stime = 0 ;                 //初始化程序的各種運作時間

        p->times.tms_cutime = p->times.tms_cstime = 0 ;

#ifdef CONFIG_SMP                 //初始化對稱處理器成員

   {

        int      i;

        p->cpus_runnable = ~0UL;

        p->processor = current->processor ;

        for( i = 0 ; i

                 p->per_cpu_utime[ i ] = p->per_cpu_stime[ i ] = 0;

        spin_lock_init ( &p->sigmask_lock );

    }

#endif

        p->lock_depth = -1 ;        // 注意:這裡 -1 代表 no ,表示在上下文切換時,核心不上鎖

        p->start_time = jiffies ;   // 設定程序的起始時間

        INIT_LIST_HEAD ( &p->local_pages );

        retval = -ENOMEM ;

        if ( copy_files ( clone_flags , p ))      //拷貝父程序的 files 指針,共享父程序已打開的檔案

                goto bad_fork_cleanup ;

        if ( copy_fs ( clone_flags , p ))         //拷貝父程序的 fs 指針,共享父程序檔案系統

                goto bad_fork_cleanup_files ;

        if ( copy_sighand ( clone_flags , p ))    //子程序共享父程序的信号處理函數指針

                goto bad_fork_cleanup_fs ;

        if ( copy_mm ( clone_flags , p ))

                goto bad_fork_cleanup_mm ;        //拷貝父程序的 mm 資訊,共享存儲管理資訊

        retval = copy_thread( 0 , clone_flags , stack_start, stack_size , p regs );

                                                  //初始化 TSS、LDT以及GDT項

        if ( retval )

                goto bad_fork_cleanup_mm ;

        p->semundo = NULL ;                       //初始化信号量成員

        p->prent_exec_id = p-self_exec_id ;

        p->swappable = 1 ;                        //程序占用的記憶體頁面可換出

        p->exit_signal = clone_flag & CSIGNAL ;

        p->pdeatch_signal = 0 ;                   //注意:這裡是父程序消亡後發送的信号

        p->counter = (current->counter + 1) >> 1 ;//程序動态優先級,這裡設定成父程序的一半,應注意的是,這裡是采用位操作來實作的。

        current->counter >> =1;

        if ( !current->counter )

                current->need_resched = 1 ;        //置位重新排程标記,實際上從這個地方開始,分裂成了父子兩個程序。

        retval = p->pid ;

        p->tpid = retval ;

        INIT_LIST_HEAD( &p->thread_group );

        write_lock_irq( &tasklist_lock );

        p->p_opptr = current->p_opptr ;

        p->p_pptr = current->p_pptr ;

        if ( !( clone_flags & (CLONE_PARENT | CLONE_THREAD ))) {

                 p->opptr = current ;

                 if ( !(p->ptrace & PT_PTRACED) )

                         p->p_pptr = current ;

        if ( clone_flags & CLONE_THREAD ){

                 p->tpid = current->tpid ;

                 list_add ( &p->thread_group,&current->thread_group );

        SET_LINKS(p);

        hash_pid(p);

        nr_threads++;

        write_unlock_irq( &tasklist_lock );

        if ( p->ptrace & PT_PTRACED )

                  send_sig( SIGSTOP , p ,1 );

        wake_up_process(p);        //把新程序加入運作隊列,并啟動排程程式重新排程,使新程序獲得運作機會

        ++total_forks ; 

        if ( clone_flags & CLONE_VFRK )

                  wait_for_completion(&vfork);

        //以下是出錯處理部分

        fork_out:

                  return retval;

        bad_fork_cleanup_mm:

                  exit_mm(p);

        bad_fork_cleanup_sighand:

                  exit_sighand(p);

        bad_fork_cleanup_fs:

                  exit_fs(p);

        bad_fork_cleanup_files:

                  exit_files(p);

        bad_fork_cleanup:

                  put_exec_domain( p->exec_domain );

                  if ( p->binfmt && p->binfmt->module )

                                __MOD_DEC_USE_COUNT( p->binfmt->module );

        bad_fork_cleanup_count:

                  atomic_dec( &p->user->processes );

                  free_uid ( p->user );

        bad_fork_free:

                  free_task_struct(p);

                  goto fork_out;

}

PS:

代碼是分析完了,有兩個方面的體會:

一、這個函數重點是了解程序分裂的部分,其中兩次傳回 pid 的值是了解的重中之重。

二、盡管我一直不主張在程式中大量使用 goto 語句,不得不承認,那些大牛的 goto 語句用在此處是恰到好處啊。^_^

繼續閱讀