分頁機(jī)制在段機(jī)制之后進(jìn)行,以完成線性—物理地址的轉(zhuǎn)換過程。段機(jī)制把邏輯地址轉(zhuǎn)換為線性地址,分頁機(jī)制進(jìn)一步把該線性地址再轉(zhuǎn)換為物理地址。
硬件中的分頁
分頁機(jī)制由CR0中的PG位啟用。如PG=1,啟用分頁機(jī)制,并使用本節(jié)要描述的機(jī)制,把線性地址轉(zhuǎn)換為物理地址。如PG=0,禁用分頁機(jī)制,直接把段機(jī)制產(chǎn)生的線性地址當(dāng)作物理地址使用。分頁機(jī)制管理的對(duì)象是固定大小的存儲(chǔ)塊,稱之為頁 (page)。分頁機(jī)制把整個(gè)線性地址空間及整個(gè)物理地址空間都看成由頁組成,在線性地址空間中的任何一頁,可以映射為物理地址空間中的任何一頁(我們把物理空間中的一頁叫做一個(gè)頁面或頁框(page frame))。
80386 使用4K字節(jié)大小的頁。每一頁都有4K字節(jié)長,并在4K字節(jié)的邊界上對(duì)齊,即每一頁的起始地址都能被4K整除。因此,80386把4G字節(jié)的線性地址空間,劃分為1G個(gè)頁面,每頁有4K字節(jié)大小。分頁機(jī)制通過把線性地址空間中的頁,重新定位到物理地址空間來進(jìn)行管理,因?yàn)槊總€(gè)頁面的整個(gè)4K字節(jié)作為一個(gè)單位進(jìn)行映射,并且每個(gè)頁面都對(duì)齊4K字節(jié)的邊界,因此,線性地址的低12位經(jīng)過分頁機(jī)制直接地作為物理地址的低12位使用。
為什么使用兩級(jí)頁表
假設(shè)每個(gè)進(jìn)程都占用了4G的線性地址空間,頁表共含1M個(gè)表項(xiàng),每個(gè)表項(xiàng)占4個(gè)字節(jié),那么每個(gè)進(jìn)程的頁表要占據(jù)4M的內(nèi)存空間。為了節(jié)省頁表占用的空間,我們使用兩級(jí)頁表。每個(gè)進(jìn)程都會(huì)被分配一個(gè)頁目錄,但是只有被實(shí)際使用頁表才會(huì)被分配到內(nèi)存里面。一級(jí)頁表需要一次分配所有頁表空間,兩級(jí)頁表則可以在需要的時(shí)候再分配頁表空間。
兩級(jí)頁表結(jié)構(gòu)
兩級(jí)表結(jié)構(gòu)的第一級(jí)稱為頁目錄,存儲(chǔ)在一個(gè)4K字節(jié)的頁面中。頁目錄表共有1K個(gè)表項(xiàng),每個(gè)表項(xiàng)為4個(gè)字節(jié),并指向第二級(jí)表。線性地址的最高10位(即位31~位32)用來產(chǎn)生第一級(jí)的索引,由索引得到的表項(xiàng)中,指定并選擇了1K個(gè)二級(jí)表中的一個(gè)表。
兩級(jí)表結(jié)構(gòu)的第二級(jí)稱為頁表,也剛好存儲(chǔ)在一個(gè)4K字節(jié)的頁面中,包含1K個(gè)字節(jié)的表項(xiàng),每個(gè)表項(xiàng)包含一個(gè)頁的物理基地址。第二級(jí)頁表由線性地址的中間10 位(即位21~位12)進(jìn)行索引,以獲得包含頁的物理地址的頁表項(xiàng),這個(gè)物理地址的高20位與線性地址的低12位形成了最后的物理地址,也就是頁轉(zhuǎn)化過程輸出的物理地址。
頁目錄項(xiàng)
第31~12位是20位頁表地址,由于頁表地址的低12位總為0,所以用高20位指出32位頁表地址就可以了。因此,一個(gè)頁目錄最多包含1024個(gè)頁表地址。
第0位是存在位,如果P=1,表示頁表地址指向的該頁在內(nèi)存中,如果P=0,表示不在內(nèi)存中。
第1位是讀/寫位,第2位是用戶/管理員位,這兩位為頁目錄項(xiàng)提供硬件保護(hù)。當(dāng)特權(quán)級(jí)為3的進(jìn)程要想訪問頁面時(shí),需要通過頁保護(hù)檢查,而特權(quán)級(jí)為0的進(jìn)程就可以繞過頁保護(hù)。
第3位是PWT(Page Write-Through)位,表示是否采用寫透方式,寫透方式就是既寫內(nèi)存(RAM)也寫高速緩存,該位為1表示采用寫透方式
第4位是PCD(Page Cache Disable)位,表示是否啟用高速緩存,該位為1表示啟用高速緩存。
第5位是訪問位,當(dāng)對(duì)頁目錄項(xiàng)進(jìn)行訪問時(shí),A位=1。
第7位是Page Size標(biāo)志,只適用于頁目錄項(xiàng)。如果置為1,頁目錄項(xiàng)指的是4MB的頁面,請(qǐng)看后面的擴(kuò)展分頁。
第9~11位由操作系統(tǒng)專用,Linux也沒有做特殊之用。
頁面項(xiàng)
80386的每個(gè)頁目錄項(xiàng)指向一個(gè)頁表,頁表最多含有1024個(gè)頁面項(xiàng),每項(xiàng)4個(gè)字節(jié),包含頁面的起始地址和有關(guān)該頁面的信息。頁面的起始地址也是4K的整數(shù)倍,所以頁面的低12位也留作它用。
第31~12位是20位物理頁面地址,除第6位外第0~5位及9~11位的用途和頁目錄項(xiàng)一樣,第6位是頁面項(xiàng)獨(dú)有的,當(dāng)對(duì)涉及的頁面進(jìn)行寫操作時(shí),D位被置1。
4GB的內(nèi)存只有一個(gè)頁目錄,它最多有1024個(gè)頁目錄項(xiàng),每個(gè)頁目錄項(xiàng)又含有1024個(gè)頁面項(xiàng),因此,內(nèi)存一共可以分成1024×1024=1M個(gè)頁面。由于每個(gè)頁面為4K個(gè)字節(jié),所以,存儲(chǔ)器的大小正好最多為4GB。
線性地址到物理地址的轉(zhuǎn)換
32位線性地址到物理地址的轉(zhuǎn)換
1.CR3包含著頁目錄的起始地址,用32位線性地址的最高10位A31~A22作為頁目錄的頁目錄項(xiàng)的索引,將它乘以4,與CR3中的頁目錄的起始地址相加,形成相應(yīng)頁表的地址。
2.從指定的地址中取出32位頁目錄項(xiàng),它的低12位為0,這32位是頁表的起始地址。用32位線性地址中的A21~A12位作為頁表中的頁面的索引,將它乘以4,與頁表的起始地址相加,形成32位頁面地址。
3.將A11~A0作為相對(duì)于頁面地址的偏移量,與32位頁面地址相加,形成32位物理地址。
擴(kuò)展分頁
從奔騰處理器開始,Intel微處理器引進(jìn)了擴(kuò)展分頁,它允許頁的大小為4MB。
在擴(kuò)展分頁的情況下,分頁機(jī)制把32位線性地址分成兩個(gè)域:最高10位的目錄域和其余22位的偏移量。
頁面高速緩存
由于在分頁情況下,每次存儲(chǔ)器訪問都要存取兩級(jí)頁表,這就大大降低了訪問速度。所以,為了提高速度,在386中設(shè)置一個(gè)最近存取頁面的高速緩存硬件機(jī)制,它 自動(dòng)保持32項(xiàng)處理器最近使用的頁面地址,因此,可以覆蓋128K字節(jié)的存儲(chǔ)器地址。當(dāng)進(jìn)行存儲(chǔ)器訪問時(shí),先檢查要訪問的頁面是否在高速緩存中,如果在, 就不必經(jīng)過兩級(jí)訪問了,如果不在,再進(jìn)行兩級(jí)訪問。平均來說,頁面高速緩存大約有98%的命中率,也就是說每次訪問存儲(chǔ)器時(shí),只有2%的情況必須訪問兩級(jí)分頁機(jī)構(gòu)。這就大大加快了速度。
Linux中的分頁機(jī)制
Linux使用了一個(gè)適合32位和64位系統(tǒng)的分頁機(jī)制。
頁全局目錄
頁頂級(jí)目錄
頁中間目錄
頁表
頁全局目錄包含若干頁上級(jí)目錄的地址,頁上級(jí)目錄又依次包含若干頁中間目錄的地址,而頁中間目錄又包含若干頁表的地址。每一個(gè)頁表項(xiàng)指向一個(gè)頁框。線性地址因此被分成五個(gè)部分。圖中沒有顯示位數(shù),因?yàn)槊恳徊糠值拇笮∨c具體的計(jì)算機(jī)體系結(jié)構(gòu)有關(guān)。
對(duì)于沒有啟用物理地址擴(kuò)展的32位系統(tǒng),兩級(jí)頁表已經(jīng)足夠了。從本質(zhì)上說,Linux通過使“頁上級(jí)目錄”位和“頁中間目錄”位全為0,徹底取消了頁上級(jí)目錄和頁中間目錄字段。不過,頁上級(jí)目錄和頁中間目錄在指針序列中的位置被保留,以便同樣的代碼在32位系統(tǒng)和64位系統(tǒng)下都能使用。內(nèi)核為頁上級(jí)目錄和頁中間目錄保留了一個(gè)位置,這是通過把它們的頁目錄項(xiàng)數(shù)設(shè)置為1,并把這兩個(gè)目錄項(xiàng)映射到頁全局目錄的一個(gè)合適的目錄項(xiàng)而實(shí)現(xiàn)的。
啟用了物理地址擴(kuò)展的32 位系統(tǒng)使用了三級(jí)頁表。Linux的頁全局目錄對(duì)應(yīng)80×86 的頁目錄指針表(PDPT),取消了頁上級(jí)目錄,頁中間目錄對(duì)應(yīng)80×86的頁目錄,Linux的頁表對(duì)應(yīng)80×86的頁表。
最后,64位系統(tǒng)使用三級(jí)還是四級(jí)分頁取決于硬件對(duì)線性地址的位的劃分。
總結(jié)
這里我們不討論代碼實(shí)現(xiàn),只關(guān)注原理。從上面的討論可以看到分頁機(jī)制主要依賴硬件的實(shí)現(xiàn)。Linux采用的四級(jí)頁表只是為了最大化兼容不同的硬件實(shí)現(xiàn),單就IA32架構(gòu)的CPU來說,就有多種分頁實(shí)現(xiàn),常規(guī)分頁機(jī)制,PAE機(jī)制等。
我們雖然討論的是Linux的分頁機(jī)制,實(shí)際上我們用了大部分篇幅來討論Intel CPU的分頁機(jī)制實(shí)現(xiàn)。因?yàn)長inux的分頁機(jī)制是建立在硬件基礎(chǔ)之上的,不同的平臺(tái)需要有不同的實(shí)現(xiàn)。Linux在軟件層面構(gòu)造的虛擬地址,最終還是要通過MMU轉(zhuǎn)換為物理地址,也就是說,不管Linux的分頁機(jī)制是怎樣實(shí)現(xiàn)的,CPU只按照它的分頁實(shí)現(xiàn)來解讀線性地址,所以Linux傳給CPU的線性地址必然是滿足硬件實(shí)現(xiàn)的。例如說:Linux在32位CPU上,它的四級(jí)頁表結(jié)構(gòu)就會(huì)兼容到硬件的兩級(jí)頁表結(jié)構(gòu)??梢?,Linux在軟件層面上做了一層 抽象,用四級(jí)頁表的方式兼容32位和64位CPU內(nèi)存尋址的不同硬件實(shí)現(xiàn)。