前面已經談了核心加載與系統引導過程,下面我們來看看核心的 do_fork() 函數是如何建立一個新的程序的。
在 Linux 核心中,供使用者建立程序的系統調用fork()函數的響應函數是 sys_fork()、sys_clone()、sys_vfork()。這三個函數都是通過調用核心函數 do_fork() 來實作的。根據
調用時所使用的 clone_flags 參數不同,do_fork() 函數完成的工作也各異。
這部分内容簡單,我不打算就此而展開分析。下面我們重點來講解以下 do_fork() 函數的工作原理。
我們知道 do_fork() 函數生成一個新的程序,大緻分為三個步驟。
1、建立程序控制結構并賦初值,使其成為程序映像。這個過程完成以下内容。
在記憶體中配置設定一個 task_struct 資料結構,以代表即将産生的新程序。
把父程序 PCB 的内容複制到新程序的 PCB 中。
為新程序配置設定一個唯一的程序辨別号 PID 和 user_struct 結構。然後檢查使用者具有執行一個新程序所必須具有的資源。
重新設定 task_struct 結構中那些與父程序值不同的資料成員。
設定程序管理資訊,根據所提供的 clone_flags 參數值,決定是否對父程序 task_struct 中的指針 fs 、files 指針等所選擇的部分進行拷貝,如果 clone_flags 參數指明的是
共享而不是拷貝,則将其計數器 count 的值加 1 ,否則就拷貝新程序所需要的相關資訊内容 PCB 。這個地方是區分 sys_fork() 還是 sys_clone() 。
2、必須為新程序的執行設定跟蹤程序執行情況的相關核心資料結構。包括 任務數組、自由時間清單 tarray_freelist 以及 pidhash[] 數組。
這部分完成如下内容:
把新程序加入到程序連結清單中。
把新程序加入到 pidhash 散清單中,并增加任務計數值。
通過拷貝父程序的上、下文來初始化硬體的上下文(TSS段、LDT以及 GDT)。
3、啟動排程程式,使子程序獲得運作的機會。
這部分完成以下動作:
設定新的就緒隊列狀态 TASK_RUNING , 并将新程序挂到就緒隊列中,并重新啟動排程程式使其運作。
向父程序傳回子程序的 PID,設定子程序從 do_fork() 傳回 0 值。
下面就具體的 do_fork() 函數程式代碼進行分析(該代碼位于 kernel/fork.c 檔案中)
int do_fork(unsigned long clone_flags,unsigned long stack_start, struct pt_regs *regs,
unsigned long stack_size)
{
int retval;
struct task_struct *p;
struct completion vfork;
retval = -EPERM ;
if ( clone_flags & CLONE_PID )
{
if ( current->pid )
goto fork_out;
}
reval = -ENOMEM ;
p = alloc_task_struct(); // 配置設定記憶體建立新程序的 task_struct 結構
if ( !p )
goto fork_out;
*p = *current ; //将目前程序的 task_struct 結構的内容複制給新程序的 PCB結構
retval = -EAGAIN;
//下面代碼對父、子程序 task_struct 結構中不同值的資料成員進行指派
if ( atomic_read ( &p->user->processes ) >= p->rlim[RLIMIT_NPROC].rlim_cur
&& !capable( CAP_SYS_ADMIN ) && !capable( CAP_SYS_RESOURCE ))
goto bad_fork_free;
atomic_inc ( &p->user->__count); //count 計數器加 1
atomic_inc ( &p->user->processes); //程序數加 1
if ( nr_threads >= max_threads )
goto bad_fork_cleanup_count ;
get_exec_domain( p->exec_domain );
if ( p->binfmt && p->binfmt->module )
__MOD_INC_USE_COUNT( p->binfmt->module ); //可執行檔案 binfmt 結構共享計數 + 1
p->did_exec = 0 ; //程序未執行
p->swappable = 0 ; //程序不可換出
p->state = TASK_UNINTERRUPTIBLE ; //置程序狀态
copy_flags( clone_flags,p ); //拷貝程序标志位
p->pid = get_pid( clone_flags ); //為新程序配置設定程序标志号
p->run_list.next = NULL ;
p->run_list.prev = NULL ;
p->run_list.cptr = NULL ;
init_waitqueue_head( &p->wait_childexit ); //初始化 wait_childexit 隊列
p->vfork_done = NULL ;
if ( clone_flags & CLONE_VFORK ) {
p->vfork_done = &vfork ;
init_completion(&vfork) ;
spin_lock_init( &p->alloc_lock );
p->sigpending = 0 ;
init_sigpending( &p->pending );
p->it_real_value = p->it_virt_value = p->it_prof_value = 0 ; //初始化時間資料成員
p->it_real_incr = p->it_virt_incr = p->it_prof_incr = 0 ; //初始化定時器結構
init_timer( &p->real_timer );
p->real_timer.data = (unsigned long)p;
p->leader = 0 ;
p->tty_old_pgrp = 0 ;
p->times.tms_utime = p->times.tms_stime = 0 ; //初始化程序的各種運作時間
p->times.tms_cutime = p->times.tms_cstime = 0 ;
#ifdef CONFIG_SMP //初始化對稱處理器成員
{
int i;
p->cpus_runnable = ~0UL;
p->processor = current->processor ;
for( i = 0 ; i
p->per_cpu_utime[ i ] = p->per_cpu_stime[ i ] = 0;
spin_lock_init ( &p->sigmask_lock );
}
#endif
p->lock_depth = -1 ; // 注意:這裡 -1 代表 no ,表示在上下文切換時,核心不上鎖
p->start_time = jiffies ; // 設定程序的起始時間
INIT_LIST_HEAD ( &p->local_pages );
retval = -ENOMEM ;
if ( copy_files ( clone_flags , p )) //拷貝父程序的 files 指針,共享父程序已打開的檔案
goto bad_fork_cleanup ;
if ( copy_fs ( clone_flags , p )) //拷貝父程序的 fs 指針,共享父程序檔案系統
goto bad_fork_cleanup_files ;
if ( copy_sighand ( clone_flags , p )) //子程序共享父程序的信号處理函數指針
goto bad_fork_cleanup_fs ;
if ( copy_mm ( clone_flags , p ))
goto bad_fork_cleanup_mm ; //拷貝父程序的 mm 資訊,共享存儲管理資訊
retval = copy_thread( 0 , clone_flags , stack_start, stack_size , p regs );
//初始化 TSS、LDT以及GDT項
if ( retval )
goto bad_fork_cleanup_mm ;
p->semundo = NULL ; //初始化信号量成員
p->prent_exec_id = p-self_exec_id ;
p->swappable = 1 ; //程序占用的記憶體頁面可換出
p->exit_signal = clone_flag & CSIGNAL ;
p->pdeatch_signal = 0 ; //注意:這裡是父程序消亡後發送的信号
p->counter = (current->counter + 1) >> 1 ;//程序動态優先級,這裡設定成父程序的一半,應注意的是,這裡是采用位操作來實作的。
current->counter >> =1;
if ( !current->counter )
current->need_resched = 1 ; //置位重新排程标記,實際上從這個地方開始,分裂成了父子兩個程序。
retval = p->pid ;
p->tpid = retval ;
INIT_LIST_HEAD( &p->thread_group );
write_lock_irq( &tasklist_lock );
p->p_opptr = current->p_opptr ;
p->p_pptr = current->p_pptr ;
if ( !( clone_flags & (CLONE_PARENT | CLONE_THREAD ))) {
p->opptr = current ;
if ( !(p->ptrace & PT_PTRACED) )
p->p_pptr = current ;
if ( clone_flags & CLONE_THREAD ){
p->tpid = current->tpid ;
list_add ( &p->thread_group,&current->thread_group );
SET_LINKS(p);
hash_pid(p);
nr_threads++;
write_unlock_irq( &tasklist_lock );
if ( p->ptrace & PT_PTRACED )
send_sig( SIGSTOP , p ,1 );
wake_up_process(p); //把新程序加入運作隊列,并啟動排程程式重新排程,使新程序獲得運作機會
++total_forks ;
if ( clone_flags & CLONE_VFRK )
wait_for_completion(&vfork);
//以下是出錯處理部分
fork_out:
return retval;
bad_fork_cleanup_mm:
exit_mm(p);
bad_fork_cleanup_sighand:
exit_sighand(p);
bad_fork_cleanup_fs:
exit_fs(p);
bad_fork_cleanup_files:
exit_files(p);
bad_fork_cleanup:
put_exec_domain( p->exec_domain );
if ( p->binfmt && p->binfmt->module )
__MOD_DEC_USE_COUNT( p->binfmt->module );
bad_fork_cleanup_count:
atomic_dec( &p->user->processes );
free_uid ( p->user );
bad_fork_free:
free_task_struct(p);
goto fork_out;
}
PS:
代碼是分析完了,有兩個方面的體會:
一、這個函數重點是了解程序分裂的部分,其中兩次傳回 pid 的值是了解的重中之重。
二、盡管我一直不主張在程式中大量使用 goto 語句,不得不承認,那些大牛的 goto 語句用在此處是恰到好處啊。^_^