clone - みる会図書館

1. UNIX MAGAZINE 2003年3月号

連載 / Linux のプートプロセスをみる一 0 図 8 do-fork() を呼び出す直前のスタックだけで、プロセスを生成する処理の実体は do-fork() で実装されています。 0744 : int sys—clone(struct pt_regs regs) 0745 : { 00010F00 C0105030 clone—flags stack start regs stack Si ze sys—clon e ( ) system—call() 0749 : 0750 : 0751 : 0752 : 0753 : clone—flags = regs. ebx ; newsp = regs . ecx; if ( ! newsp) newsp = regs . esp; return do—fork(clone—flags , newsp , &regs, 0 ) ; 00000000 EBX 戻りアドレス EBX ECX EDX 0754 : } こで注目すべきポイントは構造体 pt-regs です。の十冓造イ本は、ファイル include/asm-i386/ptrace. h で以下のように定義されています。 struct pt—regs { 10 Ⅱ g ebx ; 1 ong ecx; 10 Ⅱ g edx ; 1 ong esl; 10 Ⅱ g edi ; 10 Ⅱ g ebp ; 1 ong eax; i nt xds ; int xes; 1 ong orlg—eax ; 10 Ⅱ g elp; int XCS; 10 Ⅱ g eflags; long esp; int XSS,• ています。 #define CLONE_SIGNAL (CLONE_SIGHAND ー CLONE THREAD) したがって、正確には、 CLONE_FS ー CLONE_FILES ー CLONE_SIGHAND ー CLONE_THREAD ー CLONE_VM を未することになります。舌はそれますが、 do-fork() は sys-clone() だけでなこの構造は、 system-call() がレジスタの内容をスタく、 fork と vfork システムコールを実装する関数からもックに格納した順番と同しです ( 図 7 も参照してくださ呼び出されます。その違いは、以下のように引数のフラグい ) 。そして、 202 行目の CALL 命令により戻りアドレだけです。ス ( 203 行目のアドレス ) がスタックに積まれます。この int sys-fork(struct pt-regs regs) ため、 sys-clone() はスタック上のレジスタの内容を、関 0739 : 0740 : { 数に渡された引数のように参照することができます。 return d0—fork(SIGCHLD, regs ・ esp, 0741 : kernel-thread() では、フラグの値を EBX に、 init() &regs , 0 ) ; のアドレスを ECX にオ褓内して INT 命令を実行しました ( 図 4 ) 。よって、 749 ~ 750 行目の regs. ebx と regs. ecx により、それぞれの値を取り出すことができます。 do-fork() を呼び出す直前のスタックの内容を図 8 に示します。 do%rk() への引数であるフラグ ( 00010F00 ) は、 rest-init() の 532 行目と kernel-thread() の 508 行目を合わせたものです。しかし、 CLONE-SIGNAL については include/linux/sched. h で以下のように定義され 1 三ロ 0742. int sys—vfork (struct pt—regs regs) 0766 : 0767 : return do—fork ( 0768 : CLONE_VFORK ー CLONE_VM ー SIGCHLD , regs ・ esp, &regs, 0 ) ; 0769. つまり、 do-fork() はプロセス生成の全般を受け持つルーチンなのです。 154 UNIX MAGAZINE 2003.3

2. UNIX MAGAZINE 2003年3月号

連載 /Linux のプートプロセスをみる一 0 do-fork() kernel/fork. c で定義されています。り、実行可能プロセスのリストに登録します。コードは do%rk() は、それを呼び出したプロセスのコピーを作 unsigned 10 Ⅱ g stack—size) struct pt—regs *regs , unsigned 10 Ⅱ g stack—start , int do—fork(unsigned long clone-flags , 0562 : 0563 : 0564 : { 0565 : 0566 : 0567 : int retval ; struct completion vfork; struct task—struct *p; CLONE-THREAD スレッドグルーフ・ stack-start 子プロセスの ESP レジスタに褓内するイつまり、子プロセスが使用するスタック領域のアドレス。・ regs クにオ褓内した pt-regs 構造体へのポインタ。親フ。ロセスのレジスタの内容。 system-call() がスタッ do-fork() の内容はちょっと複雑なので、すこしすっ説 IA-32 用 Linux では使用されません。・ stack_size 明します。引数の意味は以下のとおりです。・ clone-flags この 4 バイトのフラグのなかには、意味の異なる 2 種類の値が入っています。上位 3 バイトは、親プロセスと子プロセスのあいだで共有する資源の不噬頁を指定します。そして、下位 1 バイトは、子プロセスか終了したときに親プロセスに送るシグナル番号を指定します。共有する資源の不頁を指定するフラグには以下のものが CLONE-PTRACE プロセス ID CLONE-PID シグナノレ、ンドラ CLONE-SIGHAND オープンしているファイル CLONE-FILES ルート・ディレクトリとカレント・ディレクトリ CLONE-FS メモリ・デスクリプタとページテープル CLONE-VM あります。 UNIX MAGAZINE 2003.3 : 親フ。ロセス CLONE-PARENT vfork システムコーノレ用 CLONE-VFORK ptrace する親フ。ロセスが ptrace されている場合、子プロセスも 0569 : 0575 : 0576 : 0577 : 0578 : retval -EPERM; if (clone—flags & CLONE—PID) { if (current—>pid) goto fork—out ; フラグ CLONE-PID を指定できるのはプロセス ID が 0 である swapper だけで、その他のプロセスがこのフラグを指定した場合はエラーになります。 CLONENID は、マルチプロセッサを匆期化するときに使用します。 0580 : 0581 : 0582 : 0583 : 0584 : 0585 : —ENOMEM ; retval p = alloc—task—struct() ; *p = *current ; got 0 f ork— out ; if (!p) alloc-task-struct() は、メモリアロケータから 8KB のメモリプロックを確保します。このメモリ領域は、子フロセス用のデスクリプタとスタック ( 図 2 ) に使用します。メモリの石呆に成功すると、親フ。ロセスのデスクリプタの内容を子プロセスのデスクリプタへコピーします ( 図 9 ) 。 0587 : 0588 : 0589 : 0590 : 0591 : 0592 : -EAGAIN ; retval = if (atomic—read(&p—>user—>processes) > = p->rlim [RLIMIT—NPROC] . rlim—cur) goto bad-fork—free ; atomic—inc(&p—>user—>——count) ; atomic—inc(&p—>user—>processes) ; 155

3. UNIX MAGAZINE 2003年3月号

連載 -0 get-pid() Linux のプートプロセスをみるを呼び出して新しいプロセス ID を割り当てます。 0614 : 0615 : 0616 : 0617 : 0618 : 0619 : 0620 : 0621 : 0622 : 0623 : 0624 : 0625 : 0626 : 0627 : 0628 : 0629 : 614 0630 : 0631 : 0632 : 0633 : 0634 : 0635 : 0636 : 0637 : 0649 : 0650 : 0651 : 0652 : p—>run_list . next = NULL ; p—>run—list . prev = NULL; init—sigpending(&p->pending) ; p->sigpending = 0 ; spin—lock—init(&p—>alloc—lock) ; init—completion(&vfork) ; p—>vfork—done = &vfork ; if (clone—flags & CLONE—VFORK) p—>vfork—done = NULL ; &p->wait—chldexit) ; init—waitqueue—head ( p—>p—cptr = NULL ; init—timer (&p—>real—timer) ; = p—>it—prof—incr = 0 ; p—>it—real—incr = p—>it—virt—incr p—>it—prof—value p—>it—real—value = p—>it—virt—value p->real—timer. data = (unsigned 10 Ⅱ g ) p ; p—>times . tms_utime p—>tty—old—pgrp = 0 ; p—>leader = 0 ; ー 1 ; / * ー 1 = Ⅱ 0 lock * / p—>lock—depth p—>times . tms—cstime p—>times. tms_cutime = p—>times . tms—stlme = jiffies ; p—>start—time 図 9 のようにプロセス・デスクリプタとは別のデータ構造により管理さプロセス・デスクリプタにはそのポインタかオ褓内されています。 585 行目でプロセス・デスクリプタの内容をコピーすることにより、この時点では、子プロセスはすべての資源を親プロセスと共有する状態になっています。 656 ~ 663 行目は、引数 cIoneÆags に以下のフラグカ甘旨定されなかった場合、新たにメモリ領域を砠呆して、それぞれのデータ構造をコピーする処理をおこないます。 CLONE-FILES CLONE-FS CLONE-SIGHAND CLONE-VM 0664 : 0665 : 0666 : retval = copy—thread((), clone—flags , stack_start , stack_size , p, regs) ; if (retval) goto bad—fork—cleanup-mm; INIT_LIST_HEAD (&p—>local_pages) ; ~ 652 行目では、親プロセスから受け継ぐことができない情報 ( プロセスの親子関係や実行時間など ) を初期化します。 0654 : 0655 : 0656 : 0657 : 0658 : 0659 : 0660 : 0661 : 0662 : 0663 : retval -ENOMEM ; if (copy—files(clone—flags, p)) goto bad—fork—cleanup ; if (copy—fs(clone-flags, p) ) goto bad—fork—cleanup—files ; if (copy—sighand(clone—flags , p)) goto bad—fork—cleanup-fs ; if (copy—mm(clone-flags, p) ) goto bad-fork—cleanup-sighand ; 親プロセスと子プロセスのあいだで共有する資源は、 158 copy-thread() の処理の概要を図 10 に示します。 copy-thread() は、親プロセスが clone を呼び出したときのレジスタの内容を子プロセスのカーネルスタック領域にコピーして初期化します。このコピー処理は、スタックに待避させたデータ ( 図 7 ) を構造体 pt-regs にあてはめてコピーします。そのため、実際にはスタックに待避させていない ESP と SS の領域 ( 図 6 ) まで ( よけいに ) コピーしてしまいます。コピー処理を終えたら EAX の領域に 0 を上書きし、 ESP の領域に stack-start の値を上書きします。 clone システムコールを発行したとき、子プロセス側に返ってくる 0 はここで上書きしている値なのです。次に、スタック上にコピーした構造体 pt-regs へのポインタを thread. esp に、 ret-from-fork() のアドレスを thread. eip に設疋します。この 2 つの値は、 CPU カワ。ロセスを切り替えるときにレジスタ ESP と EIP にロードされます。つまり、新たに生まれた子プロセスの第 1 歩を示す値であり、子プロセスは ret-from-fork() から実行を開始します。そして、 ret-from-fork() は、その処理の途中で sys- tem-call() の 205 行目にジャンプし、 211 行目で各レジスタの内容をスタックからロードします。そしてさらに kernel-thread() の 494 行目に戻ります。 UNIX MAGAZINE 2003.3

4. UNIX MAGAZINE 2003年3月号

連載 / 凵 nux のプートプロセスをみる一 0 図 11 生まれたての子プロセスのスタックの好 P-OPPtr : 自分を生成したプロセス p-pptr : 現在の親プロセス通常は p-opptr と同し値を設定しますが、 ptrace などでトレースしているときは異なることがあります。 EBX ECX EDX ESI EDI EBP EAX DS ES EAX EIP CS EFLAGS ESP SS retval = p—>pid; p-cptr 0717 : : もっとも山も丘に生成した子プロセス SET_LINKS (p) ; レジスタにロードされるスタックの底プロセスは、カーネルのなかで生成と消滅を繰り返します。そして、 1 つのプロセスカ吽まれてから消えるまでのあいだに、、状態 " か変化します。 Linux カーネルは、プロセスを効率的に管理できるように、それぞれの目的別にリンクトリスト構造を使用します。その 1 つが、すべての生存中のプロセスをつなぐタスクリスト (task list) です。そのほかに、実行可能な状態のプロセスをつなぐランキュー ( 彳おがあります。 717 行目のマクロ SET-LINKS は、引数に指定したプロセスをタスクリストに挿入し、プロセスの兄弟関係を表すリストを設定します。マクロ SET-LINKS は、以下のように展開されます。 p—>next—task = &init—task ; p¯>prev—task = init—task. prev—task ; init—task. prev—task¯>next—task = p ; init—task. prev—task = p ; p—>p—ysptr = NULL ; if ( (p->p-osptr = p->p-PPtr¯>P—CPtr) ! = NULL) 関係を表すポインタを図 13 に示します。タスクリストへの挿入処理を図 12 に、プロセスの親子 p->p-pptr->p-cptr = P ; p->p-osptr->p—ysptr = p; 0701 : 0696 : 0697 : 0698 : 0704 : 0705 : 0706 : 0707 : 0708 : 0709 : 0710 : 0711 : 0712 : 0713 : 0714 : 0715 : 696 160 p—>tgid = retval; 工 NIT_LIST_HEAD (&p->thread-group) ; write—lock—irq(&tasklist—lock) ; P->P—0PPtr = current¯>p—opptr; p—>p—pptr = current—>p-pptr ; if ( ! (clone—flags & (CLONE—PARENT ー CL ONE-THREAD ) ) ) { p->p—opptr = current ; if ( ! (p->ptrace & PT—PTRACED) ) p¯>p—pptr = current ; if (clone-flags & CLONE—THREAD) { p—>tgid = current->tgid ; list—add(&p—>thread—group , &current->thread-group) ; ~ 715 行目では、親プロセスを指すポインタを設定します。それぞれのポインタの意未は以下のとおりです。 0718 : 0719 : 0720 : 0721 : 0722 : 0723 : 0724 : 0725 : 0726 : 0727 : 0728 : 0729 : 0730 : 0731 : hash-pid(p) ; nr_threads + 十 ; UNIX MAGAZINE 2003.3 return retval ; f ork_out : wait—for—completion(&vfork) ; if (clone-flags & CLONE—VFORK) 十十 total_forks ; wake-up—process (p) ; send—sig(SIGSTOP, p, 1 ) ; if (p->ptrace & PT—PTRACED) write—unlock—irq(&tasklist—lock) ;

5. UNIX MAGAZINE 2003年3月号

連載 /Linux のフートプロセスをみるー 0 int kernel—thread(int (*fn) (void * ) , void *arg, unsigned 10 Ⅱ g flags) pid—t pid = c10ne(NULL, flags ー CLONE-VM) ; exit ( ) ; fn(arg) ; } else { return pid; if (pid) { UNIX MAGAZINE 2003.3 の内容を自酌にスタックに待避させます。さらに、 INT せると、 CPU は EIP や EFLAGS といったレジスタ以前にも説明しましたが、ソフトウェア割込みを発生さの内容もコピーしなけれはなりません。コピーを作成するため、システムコール発行・時のレジスタ clone システムコールは、それを呼び出したプロセスのてまわったことせなあかんの ? 」ルーチン・コールしたらええやん。なんで、わざわざもっ「カーネルがカーネルを呼び出すんやったら、直接サプのサービスを呼び出す場合もあります。イメージがありますが、このように、カーネルがカーネルムコールはユーサー・プログラムが乎び出すものといったシステムコールを呼び出すことになります。通常、システり、 493 行目は d011e システムコールを、 503 行目は exit の割込みをシステムコールの呼出しに利用します。つま 2 月号で説明したように、 Linux ではべクタ番号 80H 三させるところです。 503 行目の INT 命令によりべクタ番号 80H の割込みを kernel-thread() のコードで注目する点は、 493 行目とような感じ」と曖床な書き方をしたのは、そのためです。と、リンク時にエラーになってしまいます。「だいたい次のて、 kernel-thread() を叫屯に一 E 記の C 言語で置き換える exit() という名前のサプルーチンはありません。したがっと思うかもしれません。しかし、カーネルには clone() やえのに」「これやったら分かるわ。最初から素直にそう書いたらええられた関数を実行します。したカーネルスレッドのプロセス ID を返し、、、子 " が学して新しいプロセスを作成します。そして、、、親 " は生成 kernel-thread() は、システムコール clone を呼び出 80H のハンドラ system-call() は、その他のレジスタの内容をスタックに待避させます。つまり、レジスタの内容をスタックに待避させるためのルーチンをわざわざ別に用意するより、ユーサー・プログラムと同じようにソフトウェア割込みを利用するほうかプログラムカ吶単になるため、サプルーチン・コールではなく INT 命令を実行しているのだと思われます。 clone システムコールを発行すると、 (fork と同じように ) 2 つのプロセスがシステムコールから戻ってきます。一方は親プロセス、もう一方は子プロセスです。つまり、 493 行目の INT 命令を実行するプロセスは 1 つですが、次の 494 行目の CPML 命令は親と子の 2 つのプロセスが実行します。それぞれのプロセスが、自分が、、親 " なのか、、子 " なのかを識別するには、 INT 命令を実行した直後の EAX レジスタの内容 ( システムコールの戻りイ間を使います。親プロセスの EAX には子プロセスのプロセス ID かオ翻勺されており、子プロセスの EAX の内容は 0 です。一方、親プロセスと子プロセスは、それぞれ異なるプロセス・デスクリプタをもつはずであり、 2 つのプロセスのカーネルスタック領域のアドレスも異なるはすです。これは、 ESP レジスタの変化で判断することができます。っまり、親プロセスについては INT 命令の前後で ESP レジスタは変化しませんが、子プロセスにはまったく異なる値かオ褓内されています。 492 行目で ESP の内容を ESI に保存し、 494 行目で比較しているのは、このカーネルスタック領域の違いによって親と子を識別しているのです。システムコール呼出しこれまでに説明したとおり、 Linux では INT 80H を実行してシステムコールを呼び出します。しかし、これだけでは Linux に用意されている 200 以上ものシステムコールのどれを実行したいのかが分かりません。また、なかには引数を渡さなけれは・ならないシステムコールもあるでしよう。 Linux は、レジスタを用いてシステムコール窈旨定と引 2 C 言言韶 ) 関数呼・出しにはスタックを使います。数の受渡しをおこないます 2 。 149

6. UNIX MAGAZINE 2003年3月号

連載 Linux のフートプロセスをみるー 0 {RLIM_INFINITY, RLIM_INFINITY}, CPU * / {RL 工 M_INFINITY, RLIM_INFINITY} , / * FSIZE * / {RLIM_INFINITY, RLIM_INFINITY}, DATA * / RLIM_INFINITY} , STACK * / _STK_LIM , RLIM_INFINITY} , CORE * / 0 , {RLIM_INFINITY, RLIM_INFINITY} , 0 } , / * NPROC * / INR_OPEN} , / * NOFILE * / INR_OPEN , {RLIM_INFINITY, / * MEMLOCK * / RLIM_INFINITY} , {RLIM_INFINITY , RLIM_INFINITY}, {RLIM_INFINITY , / * LOCKS * / RLIM_INFINITY} , get—exec—domain(p—>exec—domain) ; if (p->binfmt & & p—>binfmt—>module) _MOD_INC_USE_COUNT ( p—>binfmt—>module) ; Linux では、 BSD や Solaris など、ほかの IA-32 用 OS のバイナリファイルを実行することができます。ところが、同じ POSIX ま材処を謳っていても、システムコーノレの呼出し方やシグナル番号の意味は OS ごとに異なるため、これを吸収する仕組みが必要になります。 Linux では、これらの OS による違いを実行ドメイン (execution コンノヾイル時に、、 6 " に書き換 RLIIA ・ IIT-NPROC は、 domain) とパーソナリティ (personality) と呼はれる機えられます。よって、 rlim[RLIMIT-NPROC]. rlim-cur 構で実装し、カーネル・モジュールとして重加勺にロードでの初期値は 0 です。しかし、この値は、 start-kernel() かきるようにしています。ら呼び出される fork-init() ( 図 1 ) により、計算機の物理メモリのサイズから算出した値に更新されます。 602 ~ 605 行目では、実行ドメインに対するカーネル・モジュールの参照カウンタを増やし、誤ってモジュールが 0068 : void fork—init (unsigned long mempages) 切り離されないようにしています。 0069 カーネルがサポートしている実行ドメインのリストは、ファイル /proc/execdomains を見れば分かります。 0607 : p—>did—exec 0608 : p->swappable = 0609 : p->state = TASK—UNINTERRUPTIBLE; プロセスの状態を以下のように初期化します。・システムコール execve を夫行したことがない・スワッフ。アウト不可・シグナルを受けても無視するスリーフ状態 copy—flags(clone—flags , p) ; 子プロセスのフラグを以下のように修正します。・ PF-SUPERPRIV をクリア・ PF-USEDFPU をクリア・ PF-FORKNOEXEC をセット ( 子プロセスがシステムコール execve を夫行したことがない ) ・ clone-flags に CLONE-PTRACE が設定されていない場合は、 p->ptrace もクリア 0602 : 0603 : 0604 : 0605 : max-threads = mempages / 2 / 8 ; init—task. rlim CRLIMIT—NPROC] . rlim max—threads/2 ; init-task. rlim CRLIMIT-NPROC] . rlim_ max = max—threads/2 ; fork-init() の引数 mempages には、 max 」 ow-pfn ( 2003 年 1 月号参照 ) か渡されます。たとえは、カーネルのプート時に On node 0 totalpages : 32768 zone ( 0 ) : 4096 pages ・ zone ( 1 ) : 28672 pages ・ zone(2) : 0 pages ・のようなメッセージか表示された場合、それぞれのリミット値には 1 , 024 が設定されます。つまり、生成可能なプロセスの数は物理メモリの量によって決定されます。 if (nr—threads > = max—threads) 0599 : got0 bad-fork-cleanup—count ; 0600 : システム全体の総プロセス数 (nr-threads) が、リミット (max-threads) を超えていれば工ラーになります。 max-threads の値は、 fork-init() の 75 行目で匆祺月化されています。 0075 : 0076 : 0077 : 0078 : 0079. 0611 : p¯>pid = get—pid(clone—flags) ; 0612 : 157 UNIX MAGAZINE 2003.3

7. UNIX MAGAZINE 2003年3月号

連載 / 凵 nux のフートプロセスをみる一 0 ジャンプ先で EAX の内容か書き換えられてしまうため 206 行目では、プロセス・デスクリプタの need-re- sched を調べ、その値がセットされていれは reschedule へジャンプします。 reschedule はフロセス・スケジューラ schedule() を呼び出し、プロセスの再スケジュールと実行フ。ロセスの切替えをおこないます。そして、ふたたび制彳卸カ唳ってくると 205 行目にジャンプして同し処理を繰り返します。さらに、 208 行目はデスクリプタの sigpending をチェックします。もし、この値がセットされてい川よ、プロセスに保留中のシグナルがあることを未するため、それを処理する signal-return へジャンプし、処理カ冬ると 211 popl %ebx popl %edx popl %edi popl %ebp 行目に戻ってきます。 0211 : popl popl popl popl popl addl iret %ecx 0/oesi %eax %d s %es $4,%esp # システムコール番号を捨てるールの戻り値システムコ最後に、スタックに待避させたレジスタの内容をロード UNIX MAGAZINE 2003.3 プロセスの生成がもつアドレス空間 ( データやスタック領域 ) とファイル・不勺な部分といえます。伝糸勺な UNIX は、親プロセスプロセスの生成は、 UNIX の重川のなかでもっとも神生時の実行位置に復帰する処理をおこないます。ら EIP と CS 、 EFLAGS の内容をロードし、割込み発らす IRET 命令を実行します。この命令は、スタックか、、決まりごと " として、ハンドラルーチンの最後にはかなに戻ります。 ADDL 命令を実行した直後のスタックは、図 6 の状態ステムコールの戻り値 " かオ褓内されます。ため、もとの値 ( システムコール番号 ) には戻らす、、、シロードする位置の内容は 203 行目で書き換えられているして、割込み発生時の状態に戻します。ただし、 EAX にデスクリプタなどの資源をコピーすることで、子プロセスを生成します。しかし、このガ去は、コピー先ページフレームの取得やコピー処理のためにけして短くはない時間がかかります。さらに、多くの場合、子プロセスは execve システムコールを発行して、複製したはかりのアドレス空間を捨ててしまいます。すぐに不要になって捨ててしまうものをせっせと作るのは、たいへん無駄な作業てす。このように昔々のプロセス生成は、ひどく遅くて非効率的な処理をおこなっていました。これに対し、 Linux は次の 3 つのガ去によって上記の問題に対処しています。・ vfork システムコーノレ・ Copy-On-Write ・ライトウェイト・プロセス vfork システムコールは、親フ。ロセスとアドレス空間を共有する子プロセスを生成します。アドレス空間を共有するため、 vfork は上記のコピー処理をおこないません。ただし、親プロセスの処理は、子プロセスか終了するか、 ex- ecve システムコールを実行するまでプロックされます。 Copy-On-Write は、親フロセスと物理ページフレームを共有する子プロセスを生成します。そして、どちらカー方がページフレームに書込みをおこなうと、新たに複製したページフレームを割り当てます。つまり、古 ! 勺なプロセス生成のコピー処理のうち、、必要なところだけ " をおこない、しかも、、遅延処理 " することによってプロセスを早く生成できるのです。最後のライトウェイト・プロセス ( L ⅲ ux ではスレッドと同しと考えてよいようです ) では、親プロセスと子プロセスはアドレス空間全体 ( つまりページング・テープル ) と資源本を共有します。 vfork と異なり、親プロセスがプロックされることはありません。以降では、ライトウェイト・プロセスを作成するシステムコール clone について詳しく説明します。 sys—clone sys-clone() は、システムコール clone を実装するルーチンです。そのコードは arch/i386/kernel/process. c に定義されていますが、以下のように do-fork() を呼び出している 153

8. UNIX MAGAZINE 2003年3月号

連載 / Linux のプートプロセスをみる一 0 図 3 kernel-thread() を呼び出した直後のスタック図 4 INT 80H を実行する直前のスタック C0105011 C0105030 00000000 00010E00 戻りアドレススタックの成長方向・← ESP EBX ESI 戻りアドレス init NULL フラグ init NULL フラグ kernel_thread() rest 」 nit() ECX EDX EBX ます、すべてのシステムコールにはシステムコール番号という一意の識別子が与えられています。この識別番号は、 include/asm-i386/unistd. h で定義されています。そして、 EAX レジスタを使ってシステムコール番号を指定します。次に、 kernel-thread() のコードを見てみましよう。たただし、レジスタを用いて引数を渡す場合は、だし、インライン・アセンプリ命令の解説を始めると話が大きくそれてしまうので、 gdb で逆アセンプルしたコード・値は 32 ビットで表せる範囲まで ( ポインタも可 ) を読むことにします。以下は、 kernel-thread() の最初か・引数の数は 5 つまでら 493 行目の INT 命令までの部分です。という制限があります ( 6 つ以 E の引数をもつ mmap() 0/oesi 0XC01054f0 push $ 0X78 , %eax 0XC01054f1 mov などのシステムコールの場合は、ちょっと違うガ去を使い %ebx 0XC01054f6 push ますが、カーネルのプート時にそのようなシステムコール %ebx Ox14(%esp, 1 ) , 0XC01054f7 mov Oxc(%esp,1) , %ecx 0XC01054fb mov を呼び出すことはないので、説明は省略します ) 。 Ox10(%esp,1), %edx 0XC01054ff mov システムコールの引数を渡すために用いるレジスタは、 $ 0X100 , %ebx 0XC0105503 %esp, %esi 0XC0105509 mov 順に EBX 、 ECX 、 EDX 、 ESI 、 EDI です。たとえは、 $ 0X80 0XC010550b int 1 つの引数をとるシステムコールはその値を EBX にオ褓内 EAX にオ褓内している値 ( 78H ) は、 cl 。 ne のシステムコし、引数が 2 つの場合は EBX と ECX にオ褓内します。ール番号を意味します。この番号は、 incIude/asm-i386/ 以降では、 493 行目でシステムコール clone を呼び出 unistd. h のなかで以下のように定義されています。す前後の処理を詳しく説明します。 #define __NR_c10ne 120 ます、 rest-init() の 532 行目から kernel-thread() が C01054F7 から続く MOV 命令は、システムコール呼び出された直後のスタックの様子を図 3 に示します。図 clone への引数をレジスタにオ褓内しています。図 4 にアドに記したアドレスは私がコンパイルしたカーネルでの値でレス C010550B で INT 命令を実行する直前のスタックあり、コンパイル・オプションの選択によって異なりまの内容を示すので、スタックポインタとのオフセットをこす。本文中では、より具ー純勺な値を示したはうか理解しやの図を見ながら確認してください。すいと考えて紹介しています。 C0105503 の OR 命令の引数である 100H は、以下のスタックには kernel-thread() べ度す引数が、フラグように include/linux/sched. h で定義されているフラグの値、 NULL 値、 init() のアドレスの順番て坏責まれてい CLONE-VM の値です (kerneLthread() の 508 行目もます ( それぞれの引数の未は彳します ) 。そして、最後参照してください ) 。フラグの意味は彳あします。にサプルーチン・コールの戻りアドレスがスタックに積まれます。 #define CLONE_VM 0X00000100 150 UNIX MAGAZINE 2003.3

9. UNIX MAGAZINE 2003年3月号

Linux のプートプロセスをみる 0 白崎博生 rest ー init ( ) からカーネルスレッドの生成まで 1 ~ 2 月号では、カーネルの初期イしレーチンである start -kernel() について説明しました。今月は、 rest-init() とシステムコールの呼出し処理、そして、カーネルスレッドの生成について説明します。今回とりあげるサプルーチン rest-init() は、カーネルの起重丿ワ。ロセス全体の流れのなかでは図 1 の濃い網をかけた部分にあたります。プロセスとスレッドコードの説明に入る前に、プロセス (process) とスレッド (thread) について話しておきましよう。スレッドとは、 1 つのプロセスを実行するための資源空間のなかで、論理的な並列処理をおこなっている実行コンテキストのことです。計算機に CPU が 1 つしかない場合は、ある瞬間に実行できるプログラムは 1 つだけです。したがって、、、並列処理 " といっても、同時に複数のプログラムが CPU で実行されていなくてもかまいません。 1 つの CPU でも、実行コンテキストを素早く切り替えれは論理的に並列処理をおこなうことが可能です。これがスレッドです。現在の OS にとって、スレッドのサポートは不可欠な機能の 1 っといってもよいでしよう。スレッドの実現方法を大きく分けると、・ユーザー空間スレッド・カーネル空間スレッドの 2 不鶤頁になります。ューサー空間スレッドは、すべての処理がユーザー空間でおこなわカーネルのサポートはありません。このた UNIX MAGAZINE 2003.3 め、カーネルからは 1 つのプロセスとしかみえないので、たとえ計算機がマルチプロセッサ・システムであっても、プロセス内のスレッドか 1 司時に複数の CPU で実行されることはありません。しかし、スレッド間のコンテキスト・スイッチをおこなうとき、ユーサー空間とカーネル空間との切替えかイ畯であり、オーバーヘッドが少ないという利点があります。一方、カーネル空間スレッドは、カーネルがスレッドを 1 つの実行単位として認識し、プロセス・スケジューリングをおこないます。よって、引・・算機がマルチプロセッサ・システムであれば、プロセス内のスレッドか 1 司時に複数の CPU て並列に実行できます。ただし、コンテキスト・スイッチをおこなうときに、ユーサー空間とカーネル空間を切り替えるためのコストがかかります。このように、それぞれの実現方法には長所と短戸励ゞありますが、この 2 つは互いに排他的なものではないので、 OS によっては両方を組み合わせて実装しているものもあります。 Linux は、、カーネル空間スレッド " を実装し、スレッドを生成するためのシステムコール clone を提供しています。通常の (fork システムコールで生成する ) 子プロセスは、親と資源を共有しません。一方、 (clone システムコールで生成する ) スレッドは、親プロセスとのあいだで資源を共有する子プロセスとして生成されます。つまり、 Linux ではプロセスもスレッドも 1 つのプロセスとして管理されるわけです。したがって、スレッドにも独自のプロセス ID か割り当てられます。ただし、スレッドは親プロセスとのあいだでアドレス空間 ( テキストやデータセグメント ) 、オープン中のファイルなどの資源を共有すると 145

10. UNIX MAGAZINE 2003年3月号

連載 / 凵 nux のプートプロセスをみる一 0 図 7 system-call() はレジスタの内容をスタックに保存する system-call() system-call() は、すべてのシステムコールのエントリポイントとなるサプルーチンです。そのコードは、以下のように arch/i386/kernel/entry. S で定義されています。 pushl %ebx EBX ECX EDX ESI EDI EBP EAX DS ES system—call() INT 80H EAX EIP CS EFLAGS ます。 0197 : 0198 : 0199 : 0200 : 0201 : movl $ ー 8192 , %ebx andl %esp , %ebx testb $ 0X02 , tsk-ptrace (%ebx) Jne tracesys cmpl $(NR—sysca11s) , %eax jae badsys 197 行目は、カレントプロセスのプロセス・デスクリプタへのポインタ ( 図 2 ) を EBX に設定します。この処理は、前述の、、 current" と同しです。そして、 198 行目でデスクリプタの内容を調べ、システムコールのトレースカ甘されているかを判断します。 200 ~ 201 行目では、システムコール番号の有効性をチェックしています。 0202 : 0203 : 0204 : 0205 : 0206 : 0207 : 0208 : 0209 : call *sys—call—table(, %eax, 4 ) movl %eax, 24(%esp) # 戻り値 cli # 割込み禁止 cmpl $ 0 , need—resched(%ebx) jne reschedule cmpl $ 0 , sigpending (%ebx) Jne signal—return 0194 : 0195 : 0196 : ENTRY(system-ca11) pushl %eax # システムコール番号を保存する pushl pushl %edx pushl pushl %edi pushl %ebp pushl pushl pushl %es cld %ecx %esi %ds movl $ ( ー KERNEL—DS) , movl %edx , %ds movl %edx , %es %edx system-call() は、ますレジスタの内容をスタックに待避させます。この段階でのスタックの様子を図 7 に示し 152 202 行目の sys-call-table は、各システムコーノレのサービスルーチンのアドレスかオ巒内されているテープルです。このテープルは、同じく entry. S で定義されています。 IA-32 の仮想アドレスの大きさは 4 バイトなので、システムコール番号 (EAX レジスタの内容 ) を 4 倍した値をインデックスとして、 sys-call-table から該当するアドレスを取り出して CALL します。システムコールを実装するサービスルーチンは、それぞれ EAX レジスタに戻り値をオ内して戻るように決まっています。 kernel-thread() が発行したシステムコールは、彳する sys-clone() を呼び出し、 sys-clone() は子プロセスのプロセス ID を EAX レジスタに↑褓内して ker- nel-thread() へと戻ります。 203 行目は、サービスルーチンの戻り値をスタック上に保存します。 ESP の内容に 24 バイト加えたところは、 196 行目で EAX の内容を待避させた位置を指しています。そして、この値は 211 行目の POPL 命令によって EAX にロードされます。ここで戻り値をスタックに保存しているのは、 206 ~ 209 行目の条件カヾ岡たされたときに UNIX MAGAZINE 2003.3