一、fork()函數(shù)
在操作系統(tǒng)的基本概念中進(jìn)程是程序的一次執(zhí)行,且是擁有資源的最小單位和調(diào)度單位(在引入線程的操作系統(tǒng)中,線程是最小的調(diào)度單位)。在Linux系統(tǒng)中 創(chuàng)建進(jìn)程有兩種方式:一是由操作系統(tǒng)創(chuàng)建,二是由父進(jìn)程創(chuàng)建進(jìn)程(通常為子進(jìn)程)。系統(tǒng)調(diào)用函數(shù)fork()是創(chuàng)建一個(gè)新進(jìn)程的唯一方式,當(dāng)然 vfork()也可以創(chuàng)建進(jìn)程,但是實(shí)際上其還是調(diào)用了fork()函數(shù)。fork()函數(shù)是Linux系統(tǒng)中一個(gè)比較特殊的函數(shù),其一次調(diào)用會有兩個(gè)返 回值,下面是fork()函數(shù)的聲明:
#include unistd.h>
// On success, The PID of the process is returned in the parent,
and 0 is returned in the child. On failure,
// -1 is returned in the parent, no child process is created,
and errno is set appropriately.
pid_t fork (void);
當(dāng)程序調(diào)用fork()函數(shù)并返回成功之后,程序就將變成兩個(gè)進(jìn)程,調(diào)用fork()者為父進(jìn)程,后來生成者為子進(jìn)程。這兩個(gè)進(jìn)程將執(zhí)行相同的程序文本, 但卻各自擁有不同的棧段、數(shù)據(jù)段以及堆??截悺W舆M(jìn)程的棧、數(shù)據(jù)以及棧段開始時(shí)是父進(jìn)程內(nèi)存相應(yīng)各部分的完全拷貝,因此它們互不影響。從性能方面考慮,父 進(jìn)程到子進(jìn)程的數(shù)據(jù)拷貝并不是創(chuàng)建時(shí)就拷貝了的,而是采用了寫時(shí)拷貝(copy-on -write)技術(shù)來處理。調(diào)用fork()之后,父進(jìn)程與子進(jìn)程的執(zhí)行順序是我們無法確定的(即調(diào)度進(jìn)程使用CPU),意識到這一點(diǎn)極為重要,因?yàn)樵谝恍┰O(shè)計(jì)不好的程序中會導(dǎo)致資源競爭,從而出現(xiàn)不可預(yù)知的問題。下圖為寫時(shí)拷貝技術(shù)處理前后的示意圖:
在Linux系統(tǒng)中,常常存在許多對文件的操作,fork()的執(zhí)行將會對文件操作帶來一些小麻煩。由于子進(jìn)程會將父進(jìn)程的大多數(shù)數(shù)據(jù)拷貝一份,這樣在文 件操作中就意味著子進(jìn)程會獲得父進(jìn)程所有文件描述符的副本,這些副本的創(chuàng)建方式類似于dup()函數(shù)調(diào)用,因此父、子進(jìn)程中對應(yīng)的文件描述符均指向相同的 打開的文件句柄,而且打開的文件句柄包含著當(dāng)前文件的偏移量以及文件狀態(tài)標(biāo)志,所以在父子進(jìn)程中處理文件時(shí)要考慮這種情況,以避免文件內(nèi)容出現(xiàn)混亂或者別 的問題。下圖為執(zhí)行fork()調(diào)用后文件描述符的相關(guān)處理及其變化:
二、線程
與進(jìn)程類似,線程(thread)是允許應(yīng)用程序并發(fā)執(zhí)行多個(gè)任務(wù)的一種機(jī)制。一個(gè)進(jìn)程中可以包含多個(gè)線程,同一個(gè)程序中的所有線程均會獨(dú)立執(zhí)行,且共享 同一份全局內(nèi)存區(qū)域,其中包括初始化數(shù)據(jù)段(initialized data),未初始化數(shù)據(jù)段(uninitialized data),以及堆內(nèi)存段(heap segment)。在多處理器環(huán)境下,多個(gè)線程可以同時(shí)執(zhí)行,如果線程數(shù)超過了CPU的個(gè)數(shù),那么每個(gè)線程的執(zhí)行順序?qū)⑹菬o法確定的,因此對于一些全局共 享數(shù)據(jù)據(jù)需要使用同步機(jī)制來確保其的正確性。
在系統(tǒng)中,線程也是稀缺資源,一個(gè)進(jìn)程能同時(shí)創(chuàng)建多少個(gè)線程這取決于地址空間的大小和內(nèi)核參數(shù),一臺機(jī)器可以同時(shí)并發(fā)運(yùn)行多少個(gè)線程也受限于CPU的數(shù) 目。在進(jìn)行程序設(shè)計(jì)時(shí),我們應(yīng)該精心規(guī)劃線程的個(gè)數(shù),特別是根據(jù)機(jī)器CPU的數(shù)目來設(shè)置工作線程的數(shù)目,并為關(guān)鍵任務(wù)保留足夠的計(jì)算資源。如果你設(shè)計(jì)的程 序在背地里啟動(dòng)了額外的線程來執(zhí)行任務(wù),那這也屬于資源規(guī)劃漏算的情況,從而影響關(guān)鍵任務(wù)的執(zhí)行,最終導(dǎo)致無法達(dá)到預(yù)期的性能。很多程序中都存在全局對 象,這些全局對象的初始化工作都是在進(jìn)入main()函數(shù)之前進(jìn)行的,為了能保證全局對象的安全初始化(按順序的),因此在程序進(jìn)入main()函數(shù)之前 應(yīng)該避免線程的創(chuàng)建,從而杜絕未知錯(cuò)誤的發(fā)生。
三、fork()與多線程
在程序中fork()與多線程的協(xié)作性很差,這是POSIX系列操作系統(tǒng)的歷史包袱。因?yàn)殚L期以來程序都是單線程的,fork()運(yùn)轉(zhuǎn)正常。當(dāng)20世紀(jì)90年代初期引入線程之后,fork()的適用范圍就大為縮小了。
在多線程執(zhí)行的情況下調(diào)用fork()函數(shù),僅會將發(fā)起調(diào)用的線程復(fù)制到子進(jìn)程中。(子進(jìn)程中該線程的ID與父進(jìn)程中發(fā)起fork()調(diào)用的線程ID是一樣的,因此,線程ID相同的情況有時(shí)我們需要做特殊的處理。)也就是說不能同時(shí)創(chuàng)建出于父進(jìn)程一樣多線程的子進(jìn)程。其他線程均在子進(jìn)程中立即停止并消失,并且不會為這些線程調(diào)用清理函數(shù)以及針對線程局部存儲變量的析構(gòu)函數(shù)。這將導(dǎo)致下列一些問題:
1. 雖然只將發(fā)起fork()調(diào)用的線程復(fù)制到子進(jìn)程中,但全局變量的狀態(tài)以及所有的pthreads對象(如互斥量、條件變量等)都會在子進(jìn)程中得以保留, 這就造成一個(gè)危險(xiǎn)的局面。例如:一個(gè)線程在fork()被調(diào)用前鎖定了某個(gè)互斥量,且對某個(gè)全局變量的更新也做到了一半,此時(shí)fork()被調(diào)用,所有數(shù) 據(jù)及狀態(tài)被拷貝到子進(jìn)程中,那么子進(jìn)程中對該互斥量就無法解鎖(因?yàn)槠洳⒎窃摶コ饬康膶僦鳎绻僭噲D鎖定該互斥量就會導(dǎo)致死鎖,這是多線程編程中最不 愿意看到的情況。同時(shí),全局變量的狀態(tài)也可能處于不一致的狀態(tài),因?yàn)閷ζ涓碌牟僮髦蛔龅搅艘话雽?yīng)的線程就消失了。fork()函數(shù)被調(diào)用之后,子進(jìn)程 就相當(dāng)于處于signal handler之中,此時(shí)就不能調(diào)用線程安全的函數(shù)(用鎖機(jī)制實(shí)現(xiàn)安全的函數(shù)),除非函數(shù)是可重入的,而只能調(diào)用異步信號安全(async- signal-safe)的函數(shù)。fork()之后,子進(jìn)程不能調(diào)用:
- malloc(3)。因?yàn)閙alloc()在訪問全局狀態(tài)時(shí)會加鎖。
- 任何可能分配或釋放內(nèi)存的函數(shù),包括new、map::insert()、snprintf() ……
- 任何pthreads函數(shù)。你不能用pthread_cond_signal()去通知父進(jìn)程,只能通過讀寫pipe(2)來同步。
- printf()系列函數(shù),因?yàn)槠渌€程可能恰好持有stdout/stderr的鎖。
- 除了man 7 signal中明確列出的“signal安全”函數(shù)之外的任何函數(shù)。
2. 因?yàn)椴⑽磮?zhí)行清理函數(shù)和針對線程局部存儲數(shù)據(jù)的析構(gòu)函數(shù),所以多線程情況下可能會導(dǎo)致子進(jìn)程的內(nèi)存泄露。另外,子進(jìn)程中的線程可能無法訪問(父進(jìn)程中)由其他線程所創(chuàng)建的線程局部存儲變量,因?yàn)椋ㄗ舆M(jìn)程)沒有任何相應(yīng)的引用指針。
由于這些問題,推薦在多線程程序中調(diào)用fork()的唯一情況是:其后立即調(diào)用exec()函數(shù)執(zhí)行另一個(gè)程序,徹底隔斷子進(jìn)程與父進(jìn)程的關(guān)系。由新的進(jìn)程覆蓋掉原有的內(nèi)存,使得子進(jìn)程中的所有pthreads對象消失。
對于那些必須執(zhí)行fork(),而其后又無exec()緊隨其后的程序來說,pthreads API提供了一種機(jī)制:fork()處理函數(shù)。利用函數(shù)pthread_atfork()來創(chuàng)建fork()處理函數(shù)。pthread_atfork()聲明如下:
#include pthread.h>
// Upon successful completion, pthread_atfork() shall return a value
of zero; otherwise, an error number shall be returned to indicate the error.
// @prepare 新進(jìn)程產(chǎn)生之前被調(diào)用
// @parent 新進(jìn)程產(chǎn)生之后在父進(jìn)程被調(diào)用
// @child 新進(jìn)程產(chǎn)生之后,在子進(jìn)程被調(diào)用
int pthread_atfork (void (*prepare) (void), void (*parent) (void), void
(*child) (void));
該函數(shù)的作用就是往進(jìn)程中注冊三個(gè)函數(shù),以便在不同的階段調(diào)用,有了這三個(gè)參數(shù),我們就可以在對應(yīng)的函數(shù)中加入對應(yīng)的處理功能。同時(shí)需要注意的是,每次調(diào)用pthread_atfork()函數(shù)會將prepare添加到一個(gè)函數(shù)列表中,創(chuàng)建子進(jìn)程之前會(按與注冊次序相反的順序)自動(dòng)執(zhí)行該函數(shù)列表中函數(shù)。parent與child也會被添加到一個(gè)函數(shù)列表中,在fork()返回前,分別在父子進(jìn)程中自動(dòng)執(zhí)行(按注冊的順序)。具體事例可參考:http://blog.chinaunix.net/uid-26885237-id-3210394.html
四、總結(jié)
fork()函數(shù)的調(diào)用會導(dǎo)致在子進(jìn)程中除調(diào)用線程外的其它線程全都終止執(zhí)行并消失,因此在多線程的情況下會導(dǎo)致死鎖和內(nèi)存泄露的情況。在進(jìn)行多線程編程 的時(shí)候盡量避免fork()的調(diào)用,同時(shí)在程序在進(jìn)入main函數(shù)之前應(yīng)避免創(chuàng)建線程,因?yàn)檫@會影響到全局對象的安全初始化。線程不應(yīng)該被強(qiáng)行終止,因?yàn)?這樣它就沒有機(jī)會調(diào)用清理函數(shù)來做相應(yīng)的操作,同時(shí)也就沒有機(jī)會來釋放已被鎖住的鎖,如果另一線程對未被解鎖的鎖進(jìn)行加鎖,那么將會立即發(fā)生死鎖,從而導(dǎo) 致程序無法正常運(yùn)行。
以上就是腳本之家分享給大家的關(guān)于Linux下的多線程編程和fork()函數(shù)詳解的全部內(nèi)容,希望對大家有所幫助。感興趣的朋友可以繼續(xù)參閱本站其他相關(guān)專題,如有不足之處,歡迎留言指出。感謝朋友們對本站的支持!