前面介绍了启动汇编部分代码执行流程和镜像头,这一篇继续分析整个过程中关键的一步relocate,物理地址到虚拟地址运行的切换。前面先简单介绍下riscv的mmu,后面分析relocate和setup_vm时需要用到。
MMU相关内容参考
[1]The RISC-V Instruction Set Manual: Volume II Privileged Architecture Version 20240411
参考[1]的章节《Chapter 10. Supervisor-Level ISA, Version 1.13》
RISCV的MMU涉及一个CSR寄存器SATP和SFENCE.VMA 指令。
参考[1]的10.1.11. Supervisor Address Translation and Protection (satp) Register
SATP: Supervisor Address Translation and Protection Register即S/U模式地址转换和保护寄存器。
SATP格式如下:
PPN(physical page number ):保存根页表的物理页号。PPNx4KB即根页表的物理地址。
32位时可寻址32位(22+12=4GB物理空间) ,64位时可寻址56位(44+12)物理空间。
ASID (address space identifier):地址空间标识,可以用来标识进程。
MODE:用于表示地址转换模型。内容如下
32位时只能使用Sv32,64位时可使用Sv39/48/57(常用Sv39),RISV只使用基于页的虚拟地址模式。
SXLEN=32 | ||
Value | Name | Description |
0 | Bare | 无转换和保护 |
1 | Sv32 | 基于页的32位虚地址模式 |
SXLEN=64 | ||
Value | Name | Description |
0 | Bare | 无转换和保护 |
1-7 | - | 标准保留 |
8 | Sv39 | 基于页的39位虚地址模式 |
9 | Sv48 | 基于页的48位虚地址模式 |
10 | Sv57 | 基于页的57位虚地址模式 |
11 | Sv64 | 保留给基于页的64位虚地址模式 |
12-13 | - | 标准保留 |
14-15 | - | 设计给用户使用 |
MMU只有在S模式且SATP的MODE为有效Sv模式时才使能。
后面说的setup_vm即构建页表,然后relocate时设置satp指向根页表设置mode,使能mmu。
该指令用于刷新与地址转换相关的本地硬件缓存,页表写入和地址转换硬件的同步,比如刷新TLB。
指令格式
sfence.vma rs1, rs2
该指令的具体含义rs1,rs2不同参数的含义,以及何时需要执行该指令可以参考上述参考章节。
sfence.vma 表示rs1,rs2为x0,即针对所有地址和级别。
指令
RISCV支持Sv32,Sv39,Sv48,Sv57,Sv64.
32位系统只能使用Sv32,
64位系统可以使用Sv39~Sv64常用Sv39。
这里以Sv32和Sv39为例.
简单来说MMU即按照一定块大小实现虚拟地址到物理地址的转换(同时还可以设置对应块的访问属性),这个转换对应的块有一个颗粒度,即所谓的段/页式,这个转换的对应关系通过一个转换表来表示。页式即按照较小颗粒度比如4KB的块大小进行转换,段式则采用更大颗粒度比如2MB的块进行转换,前者颗粒度小可以减小碎片化浪费,但是需要的转换表更大,后者则相反。段页式则混合采用两者,实现均衡,但是设计复杂。RISCV出于简单的设计哲学考虑采用固定的页式。实现时实际使用多级转换表,可以按需使用几级,比如Sv39最多3级,实际也可以使用1级对应1GB颗粒度,使用两级对应2M颗粒度,使用3级对应4K颗粒度。
PTE
即页表条目page table entries 。页表的大小与页的大小完全相同为4KB,必须始终与页边界对齐,页表4KB中包含512(Sv39)或者1024(Sv32)个页表条目。
Sv32页表大小为4KB,包含2^10(1024)个页表条目(PTE),每个条目4字节,1024x4即4KB。
V位表示PTE是否有效,如果为0,则PTE中的所有其他位都是不可访问的,可以由软件自由使用。权限位R、W和X分别指示页面是否可读、可写和可执行。当这三个值都为零时,PTE是指向页表下一级的指针;否则,它是一个叶子PTE。可写页面也必须标记为可读;相反的组合保留供将来使用。
RWX可能的组合如下
X | W | R | 含义 |
0 | 0 | 0 | 指向下一级页表 |
0 | 0 | 1 | 只读页 |
0 | 1 | 0 | 保留 |
0 | 1 | 1 | 可读写页 |
1 | 0 | 0 | 只可执行页 |
1 | 0 | 1 | 可读可执行页 |
1 | 1 | 0 | 保留 |
1 | 1 | 1 | 可读写可执行页 |
二级索引对应二级PTE,每一级PTE都可能是叶子PTE,即实际可能只有1级或者2级。
第二级对应4KB页面,第一级对应4KBx2^10=4MB页面。
Sv39页表大小为4KB,包含2^9(512)个页表条目(PTE),每个条目8个字节,512x8即4KB。Sv39页表项多了一些属性,具体可以参考规格书。
三级索引对应3级PTE,每一级PTE都可能是叶子PTE,即实际可能只有1级,2级,或者3级。第三级对应4KB页面,第二级对应4KBx512=2MB页面,第一级对应2MBx512=1GB页面。每个页面都必须在虚拟和物理上与等于其大小的边界对齐。如果物理地址未充分对齐,则会引发页面错误异常。
即虚拟地址到物理地址映射,一级索引,只能按照1GB颗粒度转换,二级索引可以按照2MB颗粒度转换,三级索引可以按照4KB颗粒度转换。
PPN
即物理页号physical page number。PTE中有512个页表条目,PPN即用于表示是哪一个,512个即0~511只需要9位即可表示。
根页表的物理页号存储在satp寄存器的PPN字段中。即要查找根页表的物理地址,即根据SATP.PPN << 12(即x4KB)即可。
VPN
虚拟页号即virtual page number,
对于Sv32 VPN是10位,虚拟地址中2个VPN,代表二级索引
对于Sv39 VPN是9位,虚拟地址中3个VPN,代表三级索引。
每一个VPN表示每一级物理页表索引VPN的地方,是下一级的页表条目。
虚拟地址
Sv32实现,虚拟地址空间为32位,
Sv39实现,虚拟地址空间有效位为39位,按页(4KB)划分。
取指地址和加载存储有效地址为64位,高位要和38位一样,否则将发生页面错误异常,所以虚拟地址只能使用64位空间的高地址和低地址即(0xFFFFFFFFFFFFFFFF~0xFFFFFFE000000000)和(0x0000007FFFFFFFFF~0x0).
而linux在64位时使用0xffffffe0000000这个高端地址。
27位VPN(虚拟地址页号)通过三级页表转换为44位PPN(物理地址页号),而12位页偏移不转换。
物理地址
物理地址的PPN看成一个整体即可。物理地址的PPN即从叶PTE表项PPN域中读出。
PGD/PMD/PTE
Linux代码中分别会看到pgd,pmd,pte前缀的变量
对于Sv39即对应的一级,二级,三级页表,分别对应1GB,2MB,4KB颗粒度。
以Sv39为例
1.第一步根据satp找到根页表的物理地址a
a=satp.ppn×PAGESIZE,设i=LEVELS-1。(对于Sv32,PAGESIZE=2^12,LEVELS=2;对于Sv39 PAGESIZE=2^12,LEVELS=3)。satp寄存器必须处于活动状态,即有效特权模式必须是S模式或U模式,MODE设置为Svxx模式。
2.根据虚拟地址的vpn查找对应的表项pte的值
pte=(a+va.vpn[i]×PTESIZE),()表示该处的值。(对于Sv32,PTESIZE=4B,对于Sv39,PTESIZE=8B)
如果访问pte违反了PMA或PMP检查,则引发与原始访问类型对应的访问故障异常。
3.检查pte的有效性
如果pte.v=0,或者pte.r=0和pte.w=1,或者如果pte中设置了为未来标准使用保留的任何位或编码,停止并引发与原始访问类型对应的页面错误异常。
4.pte有效继续
PTE有效。如果pte.r=1或pte.x=1,则转到步骤5。否则,此PTE是指向页表下一级的指针。i=i-1,如果i<0,即找到最后一级了还不是叶子PTE,则停止并引发与原始访问类型对应的页面错误异常。否则,设a=pte.ppn×PAGESIZE,然后转到步骤2,继续下一级索引。
5.叶子PTE处理
发现了叶子PTE。根据当前特权模式和mstatus寄存器的SUM和MXR字段的值,确定pte.r、pte.w、pte.x和pte.u位是否允许请求的内存访问。如果没有,停止并引发与原始访问类型对应的页面错误异常。
6.大页异常处理
如果i>0(未到最后一级,说明是大页),且pte.ppn[i-1:0]≠0,则这是一个未对齐的大页;停止并引发与原始访问类型对应的页面错误异常。
7.正常大页处理
如果pte.a=0,或者如果原始内存访问是store存储并且pte.d=0:
如果实现了Svade扩展,停止并引发与原始访问类型对应的页面错误异常。
如果store到pte将违反PMA或PMP检查,则引发与原始访问类型对应的访问故障异常。
以原子方式执行以下步骤:
将pte与地址a+va.vpn[i]×PTESIZE处的pte值进行比较,
如果值匹配,则将pte.a设置为1,如果原始内存访问是store存储,则也将pte.d设为1。
如果比较失败,返回步骤2。
8.转换成功
转换后的物理地址如下:
pa.pgoff = va.pgoff
如果i>0,则这是一个大页转换,pa.ppn[i-1:0]=va.vpn[i-1-0](后级直接使用虚拟地址的vpn)。
pa.ppn[LEVELS-1:i] = pte.ppn[LEVELS-1:i](前面已经转换的级,从表项pte中取出ppn)。
对于Sv39
只用1级则,pte是一级的pte
pa.ppn[2]=pte.ppn[2] 低1GB使用VA的低1GB
只用2级则,pte是二级的pte
pa.ppn[2:1]=pte.ppn[2:1] 低2MB使用VA的低2MB
用3级则,pte是三级的pte
pa.ppn[2:0]=pte.ppn[2:0] 低4KB使用VA的低4KB
该算法中对地址转换数据结构的所有隐式访问都是使用宽度PTESIZE执行的。
即Translation Lookaside Buffer,上述虚拟地址到物理地址的转换过程可以看到要多次读物理地址,这样效率是很低的。所以硬件上增加TLB对虚拟地址-物理地址的映射关系进行缓存,之前已经解析过的下次就无需再按照上述算法解析,而是直接从缓存取出即可。
TLB即可认为是VA-PA映射关系的CACHE。
Relocate在setup_vm即设置好MMU页表之后执行。代码位置heas.s下
.align 2
relocate:
/* Relocate return address */
li a1, PAGE_OFFSET
la a2, _start
sub a1, a1, a2
add ra, ra, a1
/* Point stvec to virtual address of intruction after satp write */
la a2, 1f
add a2, a2, a1
csrw CSR_TVEC, a2
/* Compute satp for kernel page tables, but don't load it yet */
srl a2, a0, PAGE_SHIFT
li a1, SATP_MODE
or a2, a2, a1
/*
* Load trampoline page directory, which will cause us to trap to
* stvec if VA != PA, or simply fall through if VA == PA. We need a
* full fence here because setup_vm() just wrote these PTEs and we need
* to ensure the new translations are in use.
*/
la a0, trampoline_pg_dir
srl a0, a0, PAGE_SHIFT
or a0, a0, a1
sfence.vma
csrw CSR_SATP, a0
.align 2
1:
/* Set trap vector to spin forever to help debug */
la a0, .Lsecondary_park
csrw CSR_TVEC, a0
/* Reload the global pointer */
.option push
.option norelax
la gp, __global_pointer$
.option pop
/*
* Switch to kernel page tables. A full fence is necessary in order to
* avoid using the trampoline translations, which are only correct for
* the first superpage. Fetching the fence is guarnteed to work
* because that first superpage is translated the same way.
*/
csrw CSR_SATP, a2
sfence.vma
ret
调用位置如下
Initialize page tables and relocate to virtual addresses */
la sp, init_thread_union + THREAD_SIZE
mv a0, s1
call setup_vm
#ifdef CONFIG_MMU
la a0, early_pg_dir
call relocate
#endif /* CONFIG_MMU */
首先
Relocate return address */
li a1, PAGE_OFFSET
la a2, _start
sub a1, a1, a2
add ra, ra, a1
加载链接基地址到a1,运行基地址到a2,然后计算他们的差,
然后ra加上这个偏差,即将ra从运行地址转到了链接地址(虚拟地址)。
这样下次函数返回就是使用虚拟地址了。
怎么由物理地址切换到虚拟地址运行呢,设置MMU即设置SATP之前都是使用的物理地址,
当设置SATP的一刹那,就会使能MMU此时就会把当前的物理的地址作为虚拟地址去解析了,而当前的物理地址0x80200000后面都不是合法虚拟地址且没做映射,那么就会产生异常。那么怎么切换过去呢?这里取了个巧,既然这里会产生异常进入stvec对应的地方执行,那么如果我们将stvec设置为对应的虚拟地址不就好了吗。Relocate就是这么做的。
我们继续看代码
Point stvec to virtual address of intruction after satp write */
la a2, 1f
add a2, a2, a1
csrw CSR_TVEC, a2
这里la a2,1f即加载后面标志1:位置的运行地址(此时是物理地址0x8020000范围)到a2
然后加上a1(虚拟地址-物理地址偏差), 就得到了对应的虚拟地址,然后设置到stvec中去。
所以设置satp导致异常时就会跳到后面标志1:的位置执行,且是已经使能MMU后的虚拟地址。
下面这个代码,
/* Compute satp for kernel page tables, but don't load it yet */
srl a2, a0, PAGE_SHIFT
li a1, SATP_MODE
or a2, a2, a1
a0来自于参数
la a0, early_pg_dir
call relocate
即a2为将要设置到satp的ppn和mode,early_pg_dir为setup_vm中已经设置好的根页表。
然后
/*
* Load trampoline page directory, which will cause us to trap to
* stvec if VA != PA, or simply fall through if VA == PA. We need a
* full fence here because setup_vm() just wrote these PTEs and we need
* to ensure the new translations are in use.
*/
la a0, trampoline_pg_dir
srl a0, a0, PAGE_SHIFT
or a0, a0, a1
先设置临时根页表trampoline_pg_dir,trampoline_pg_dir页表是在setup_vm中设置,设置了链接虚拟地址0xffffffe00000000到加载物理地址0x8020000的映射关系。
这样再刷新TLB
sfence.vma
再设置根页表为trampoline_pg_dir
csrw CSR_SATP, a0
此时虚拟地址0xffffffe00000000对应到物理地址0x8020000
设置satp之后,由于当前pc为0x8020000范围非法,产生异常进入stevc执行即跳到后面的1:处执行,此时使用的是虚拟地址0xffffffe00000000了,刚好也设置了MMU的页表trampoline_pg_dir
0xffffffe00000000映射到了0x8020000,所以实际还是访问的是之前的物理地址的内容,只是程序PC已经开始使用虚拟地址了。
接下来执行1:处
.align 2
1:
/* Set trap vector to spin forever to help debug */
la a0, .Lsecondary_park
csrw CSR_TVEC, a0
这里la会编译为auipc指令,而pc是虚拟地址了,所以设置的stvec也是虚拟地址了,
.Lsecondary_park实际对应物理地址还是原来的地方
重新设置gp寄存器,类似的也是虚拟地址了,但是对应的物理地址还是原来的地方
/* Reload the global pointer */
.option push
.option norelax
la gp, __global_pointer$
.option pop
刚才使用的临时根页表,其作用是映射虚拟地址0xffffffe0000000到0x80200000,这样使能MMU后切换到虚拟地址后能继续访问原来物理地址的内容。
此时再切换到前面设置好的a2,即early_pg_dir对应的根页表,该页表设置了更加完整的映射关系,包括设备树等其他区域。
/*
* Switch to kernel page tables. A full fence is necessary in order to
* avoid using the trampoline translations, which are only correct for
* the first superpage. Fetching the fence is guarnteed to work
* because that first superpage is translated the same way.
*/
csrw CSR_SATP, a2
sfence.vma
ret
当然这个页表也要映射0xffffffe0000000到0x80200000,否则切换之后无法访问原来的物理地址的内容。
这里是通过setup_vm的如下代码实现的
/*
* Setup early PGD covering entire kernel which will allows
* us to reach paging_init(). We map all memory banks later
* in setup_vm_final() below.
*/
end_va = PAGE_OFFSET + load_sz;
for (va = PAGE_OFFSET; va < end_va; va += map_size)
create_pgd_mapping(early_pg_dir, va,
load_pa + (va - PAGE_OFFSET),
map_size, PAGE_KERNEL_EXEC);
临时页表对应的映射是setup_vm的如下代码实现的
/* Setup trampoline PGD and PMD */
create_pgd_mapping(trampoline_pg_dir, PAGE_OFFSET,
(uintptr_t)trampoline_pmd, PGDIR_SIZE, PAGE_TABLE);
create_pmd_mapping(trampoline_pmd, PAGE_OFFSET,
load_pa, PMD_SIZE, PAGE_KERNEL_EXEC);
此时开始就正式使能MMU使用early_pg_dir根页表了。
这里重点了解下RISCV的MMU的VA-PA的转换过程,并且了解下relocate的实现方式,这里relocate取了个巧,设置了一个临时根页表对链接虚拟地址0xffffffe000000000到加载物理地址0x80200000进行映射,然后使能mmu时产生异常,切换到提前设置好的异常地址(虚拟地址)运行,实现了无缝切换。
由于临时的根页表和正式的根页表都维护了0xffffffe00000000到0x80200000的映射,所以由临时根页表可以直接切换到正式根页表,因为切换跟页表MMU都可以正确解析到对应的同一物理地址。