坑!uboot升级过程遇到的两个bug

嵌入式ARM 2020-09-11 00:00

背景

之前做过一次 uboot的升级,当时留下了一些记录,本文摘录其中比较有意思的两个问题。

启动失败问题

问题简述

uboot代码中用到了一个库,考虑到库本身跟 uboot版本没什么关系,就直接把旧的库文件拷贝过来使用。结果编译链接是没问题,启动却会卡住。

消失的打印

为了明确卡住的位置,就去修改了库的源码,添加一些打印(此时还是在旧版本 uboot下编译的),结果发现卡住的位置或随着添加打印的变化而变化,且有些打印语句,添加后未打印出来。
我决定先从这些神秘消失的打印入手。
分析下 uboot中的 printf实现,最底层就是写寄存器,是一个同步的函数,也没什么可疑的地方。
为了确认打印不出来的时候,到底有没有调用到 printf,我决定给 printf增加一个计数器,在 gd结构体中,增加一个 printf_count字段,初始化为 0,每次打印时执行 printf_count++并打印出值。
设计这个试验,本意是确认未打印出来时是否确实也调用到了 printf,但却有了别的发现,实验结果中 printf_count值会异常变化,不是按打印顺序递增,而是会突变成很大的异常值。
printf_countgd结构体的成员,那就是 gd的问题了。进一步将 uboot全局结构体 gd的地址打印出来。确认了原因是 gd结构体的指针变化了。
这也可以解释部分打印消失的现象,原因是我们在 gd中有另一个字段,用于控制打印等级。当 gd被改动了, printf就可能解析出错,误以为打印等级为 0而提前返回。

gd的实现

那么好端端的, gd为什么会被改了呢?这就要先看看 gd到底是怎么实现的了。
uboot中维护了一个全局的结构体 gd。在代码中加入

    
DECLARE_GLOBAL_DATA_PTR;
即可使用 gd指针访问这个全局结构体,许多地方都会借助 gd来保存传递信息。
进一步看看这个宏的定义

    
旧版本uboot:
#define DECLARE_GLOBAL_DATA_PTR        register volatile gd_t *gd asm ("r8")

新版本uboot:
#define DECLARE_GLOBAL_DATA_PTR        register volatile gd_t *gd asm ("r9")
居然不一样,一个是将 gd的值放到 r8寄存器,一个是放在 r9寄存器。
那么就可以猜测到,库是在旧版本 uboot中编译出来的,可能使用了 r9,那么放到新版本 uboot中去,就会破坏 r9寄存器中保存的 gd值,导致一系列依赖 gd的代码不能正常工作。

验证改动

为了求证,将库反汇编出来,发现确实避开了 r8寄存器,但使用了 r9寄存器。
说明 uboot在指定 gd寄存器的同时,还有某种方法让其他代码不使用这个寄存器。
那是不是把旧 uboot中的这个 r8改成 r9,重新编译库就可以了呢?试一下,还是不行。
那么禁止其他代码使用 r8寄存器肯定就是通过别的方式实现的了。简单粗暴地在旧版本 uboot下搜索 r8,去掉 .c .h等类型后,很容易发现了

    
./arch/arm/cpu/armv7/config.mk:24:PLATFORM_RELFLAGS += -fno-common -ffixed-r8 -msoft-floa
-ffixed-r8修改为 -ffixed-r9,重新编译出库,这回就可以正常工作了,打印正常,启动正常。反汇编出来也可以看到,新编译出来的库用了 r8没有用 r9
当然更好的改法,是直接在新版本的 uboot中编译,这是最可靠的。

追本溯源

话说回来,为什么两个版本的 uboot,会使用不同的寄存器呢?难道有什么坑?
这就得去翻一下 git记录了。

    
commit fe1378a961e508b31b1f29a2bb08ba1dac063155
Author: Jeroen Hofstee <jeroen@myspectrum.nl>
Date:   Sat Sep 21 14:04:41 2013 +0200

    ARM: use r9  for gd
    
    To be more EABI compliant and as a preparation  for building
    with clang, use the platform-specific r9 register  for gd
    instead of r8.
    
    note: The FIQ is not updated since it is not used  in u-boot,
    and under discussion  for the time being.
    
    The following checkpatch warning is ignored:
    WARNING: Use of volatile is usually wrong: see
    Documentation/volatile-considered-harmful.txt
    
    Signed-off-by: Jeroen Hofstee <jeroen@myspectrum.nl>
    cc: Albert ARIBAUD <albert.u.boot@aribaud.net>
git记录中,也可以确认完整地将 r8切换到 r9,都需要做哪些修改

    
diff --git a/arch/arm/config.mk b/arch/arm/config.mk
index  16c2e3d1e0..d0cf43ff41  100644
--- a/arch/arm/config.mk
+++ b/arch/arm/config.mk
@@  -17, 7 + 17, 7 @@ endif
 
 LDFLAGS_FINAL += --gc-sections
 PLATFORM_RELFLAGS += -ffunction-sections -fdata-sections \
-                     -fno-common -ffixed-r8 -msoft- float
+                     -fno-common -ffixed-r9 -msoft- float
 
 # Support generic board on ARM
 __HAVE_ARCH_GENERIC_BOARD := y
diff --git a/arch/arm/cpu/armv7/lowlevel_init.S b/arch/arm/cpu/armv7/lowlevel_init.S
index  82b2b86520. .69e3053a42  100644
--- a/arch/arm/cpu/armv7/lowlevel_init.S
+++ b/arch/arm/cpu/armv7/lowlevel_init.S
@@  -22, 11 + 22, 11 @@ ENTRY(lowlevel_init)
        ldr     sp, =CONFIG_SYS_INIT_SP_ADDR
        bic     sp, sp, # 7  /* 8-byte alignment for ABI compliance */
 #ifdef CONFIG_SPL_BUILD
-       ldr     r8, =gdata
+       ldr     r9, =gdata
 # else
        sub     sp, #GD_SIZE
        bic     sp, sp, # 7
-       mov     r8, sp
+       mov     r9, sp
 #endif
         /*
         * Save the old lr(passed in ip) and the current lr to stack
diff --git a/arch/arm/include/asm/global_data.h b/arch/arm/include/asm/global_data.h
index 79a9597419..e126436093 100644
--- a/arch/arm/include/asm/global_data.h
+++ b/arch/arm/include/asm/global_data.h
@@ -47,6 +47,6 @@ struct arch_global_data {
 
 #include <asm-generic/global_data.h>
 
-#define DECLARE_GLOBAL_DATA_PTR     register volatile gd_t *gd asm ("r8")
+#define DECLARE_GLOBAL_DATA_PTR     register volatile gd_t *gd asm ("r9")
 
 #endif /* __ASM_GBL_DATA_H */

diff --git a/arch/arm/lib/crt0.S b/arch/arm/lib/crt0.S
index  960d12e732..ac54b9359a  100644
--- a/arch/arm/lib/crt0.S
+++ b/arch/arm/lib/crt0.S
@@  -69, 7 + 69, 7 @@ ENTRY(_main)
        bic     sp, sp, # 7       /* 8-byte alignment for ABI compliance */
        sub     sp, #GD_SIZE     /* allocate one GD above SP */
        bic     sp, sp, # 7       /* 8-byte alignment for ABI compliance */
-       mov     r8, sp           /* GD is above SP */
+       mov     r9, sp           /* GD is above SP */
        mov     r0, # 0
        bl      board_init_f
 
@@  -81, 15 + 81, 15 @@ ENTRY(_main)
  *  'here' but relocated.
  */
 
-       ldr     sp, [r8, #GD_START_ADDR_SP]      /* sp = gd->start_addr_sp */
+       ldr     sp, [r9, #GD_START_ADDR_SP]      /* sp = gd->start_addr_sp */
        bic     sp, sp, # 7       /* 8-byte alignment for ABI compliance */
-       ldr     r8, [r8, #GD_BD]                 /* r8 = gd->bd */
-       sub     r8, r8, #GD_SIZE                 /* new GD is below bd */
+       ldr     r9, [r9, #GD_BD]                 /* r9 = gd->bd */
+       sub     r9, r9, #GD_SIZE                 /* new GD is below bd */
 
        adr     lr, here
-       ldr     r0, [r8, #GD_RELOC_OFF]          /* r0 = gd->reloc_off */
+       ldr     r0, [r9, #GD_RELOC_OFF]          /* r0 = gd->reloc_off */
        add     lr, lr, r0
-       ldr     r0, [r8, #GD_RELOCADDR]          /* r0 = gd->relocaddr */
+       ldr     r0, [r9, #GD_RELOCADDR]          /* r0 = gd->relocaddr */
        b       relocate_code
 here:
 
@@  -111, 8 + 111, 8 @@ clbss_l:cmp r0, r1                   /* while not at end of BSS */
        bl red_led_on
 
         /* call board_init_r(gd_t *id, ulong dest_addr) */
-       mov     r0, r8                   /* gd_t */
-       ldr     r1, [r8, #GD_RELOCADDR]  /* dest_addr */
+       mov     r0, r9                   /* gd_t */
+       ldr     r1, [r9, #GD_RELOCADDR]  /* dest_addr */
         /* call board_init_r */
        ldr     pc, =board_init_r        /* this is auto-relocated! */

启动慢问题

问题简述

填了几个坑之后,新的 uboot可以启动到内核了,但发现启动速度非常慢,内核启动速度慢了接近 10倍!明明是同一个内核,为什么差异这么大。

排查寄存器

初步排查了下设备树配置,以及 uboot跳转内核前的一些关键寄存器,确实在两个版本的 uboot中有所不同,但具体去看这些不同,发现都不会影响速度,将一些驱动对齐之后寄存器差异基本就消失了。

差异的分界

那再细看, kernel的速度有差异, uboot呢?在哪个时间点之后,速度开始产生差异?
尝试在两个版本的 uboot中插入一些操作,对比时间戳,发现两个 uboot在某个节点之后的速度确实有区别。
进一步排查,原来是在打开 cache操作之后,旧 uboot的速度就会比新 uboot快。尝试将旧 ubootcache关掉,则二者基本一致。尝试将旧 uboot操作 cache的代码,移植到新 uboot,未发生改变。
此时可确认新 uboot的开 cache有问题。但觉得这个跟 kernel启动慢没关系。因为 uboot进入 kernel之前都会关 cache,由 kernel自己去重新打开。
也就是不管是用哪份 uboot,也不管 uboot中是否开了 cache,对 kernel阶段都应该没有影响才对。
于是记录下来 uboot的这个问题,待后续修复。先继续找 kernel启动慢的原因。(注:现在看来当时的做法是有问题的,这里的异常这么明显,应该设法追踪下去找出原因才对)

锁定uboot

uboot的嫌疑非常大,但还不能完全确认,因为 uboot之前还有一级 spl。是否会是 spl的问题呢?
尝试改用 新spl+旧uboot,启动速度正常。而新 spl+新uboot的启动速度则很慢,其他因素都不变,说明问题确实出在 uboot阶段。

多做or少做

当时到这一步就卡住了,直接比较两份 uboot的代码不太现实,差异太大了。
后来我就给自己提了个问题,到底新 uboot是多做了某件事情,还是少做了某件事情?
换个说法,目前已知

    
spl --> 旧uboot --> kernel(速度快)
spl --> 新uboot --> kernel(速度快)
但到底是以下的情况 A还是情况 B呢?

    
A: spl(速度慢) --> 旧uboot(做了某个会提升速度的操作) --> kernel(速度快)
   spl(速度慢) --> 新uboot(少做了某个会提升速度的操作) --> kernel(速度慢)

B: spl(速度快) --> 旧uboot(没做特殊操作) --> kernel(速度快)
   spl(速度快) --> 新uboot(多做了某个会限制速度的操作) --> kernel(速度慢)
为了验证,我决定让 spl直接启动内核,看看内核到底是快是慢。
支持过程碰到了一些小问题
1. spl没有能力加载这么大的 kernel
解决:此时不需要 kernel能完全启动,只需要能加载启动一段,足以体现出启动速度是否正常即可,于是裁剪出一个非常小 kernel来辅助实验。
2. kernel需要 dtb
解决:内核有一个 CONFIG_BUILD_ARM_APPENDED_DTB_IMAGE选项。选上重新编译。编译后再用 ddkerneldtb拼接到一起,作为新的 kernel。这样, spl就只需要加载一个文件并跳转过去即可。
试验结果, spl启动的 kernel和使用新 uboot启动的 kernel速度一致,均比旧 uboot启动的 kernel慢。
说明,旧 uboot中做了某个关键操作,而新 uboot没做。

找出关键操作

那接下来的任务就是,找出旧 uboot中的这个关键操作了。
怎么找呢?有了上一步的成果,我们可以使用以下方法来排查
  1. spl加载kernel和旧uboot

  2. spl跳转到旧uboot,此时kernel其实已经在dram中准备好了,随时可以启动

  3. 在旧uboot的启动流程各个阶段,尝试直接跳转到kernel,观察启动速度

  4. 如果在旧ubootA点跳转kernel启动慢,B点跳转启动快,则说明关键操作位于AB点之间。

方法有了,很快就锁定到 start.S,进一步在 start.S中揪出了这段代码

    
#if defined(CONFIG_ARM_A7)
@ set SMP bit
    mrc     p15,  0, r0, c1, c0,  1
    orr        r0, r0, #( 1<< 6)
    mcr        p15,  0, r0, c1, c0,  1
#endif
ubootstart.S中没有这段代码,尝试在新 ubootstart.S中添加此操作,速度立马恢复正常了。
再全局搜索下,原来这个新版本 uboot中,套路是在 board_init中进行此项设置的,而这个平台从旧版本移植过来,就没有设置 SMP bit, 补上即可。

SMP bit是什么

SMP 是指对称多处理器,看起来这个 bit 会影响多核的 cache一致性,此处没有再深入研究。
但可以知道,对于单处理器的情况,也需要设置这个 bit才能正常使用 cache
贴下 arm的图和描述:

    
[6] SMP 

Signals  if the Cortex-A9 processor is taking part  in coherency or not.

In uniprocessor configurations,  if this bit is  setthen Inner Cacheable Shared is treated as Cacheable. The reset value is zero.
搜下 kernel的代码,发现也是有地方调用了的。不过这个芯片是单核的,根本就没配置 CONFIG_SMP

    
#ifdef CONFIG_SMP
 ALT_SMP(mrc p15,  0, r0, c1, c0,  1)
 ALT_UP(mov r0, #( 1 <<  6))  @ fake it  for UP
 tst r0, #( 1 <<  6)   @ SMP/nAMP mode enabled?
 orreq r0, r0, #( 1 <<  6)  @ Enable SMP/nAMP mode
 orreq r0, r0, r10   @ Enable CPU-specific SMP bits
 mcreq p15,  0, r0, c1, c0,  1
#endif

总结

整理出来一方面是记录这两个 bug,另一方面也是想记录下当时的一些操作。
毕竟同样的 bug可能以后都不会碰到了,但解 bug的方法和思路却是可以积累复用的。

-END-


本文授权转载自qb杂货铺,作者:瞎折腾的zqb




推荐阅读



【01】C语言内存泄露很严重,如何应对?
【02】编译C语言程序,使用 gcc 指令,而C++程序则推荐使用 g++指令!
【03】C语言:优雅的字符串函数库
【04】在C 语言中,请一定记得初始化局部变量!
【05】嵌入式编程是否应该用C++替代C语言


免责声明:整理文章为传播相关技术,版权归原作者所有,如有侵权,请联系删除
嵌入式ARM 关注这个时代最火的嵌入式ARM,你想知道的都在这里。
评论
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 114浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 140浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 144浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 109浏览
  • 在电子工程领域,高速PCB设计是一项极具挑战性和重要性的工作。随着集成电路的迅猛发展,电路系统的复杂度和运行速度不断提升,对PCB设计的要求也越来越高。在这样的背景下,我有幸阅读了田学军老师所著的《高速PCB设计经验规则应用实践》一书,深感受益匪浅。以下是我从本书中学习到的新知识和经验分享,重点涵盖特殊应用电路的PCB设计、高速PCB设计经验等方面。一、高速PCB设计的基础知识回顾与深化 在阅读本书之前,我对高速PCB设计的基础知识已有一定的了解,但通过阅读,我对这些知识的认识得到了进一步的深
    金玉其中 2024-12-05 10:01 2浏览
  • 概述 说明(三)探讨的是比较器一般带有滞回(Hysteresis)功能,为了解决输入信号转换速率不够的问题。前文还提到,即便使能滞回(Hysteresis)功能,还是无法解决SiPM读出测试系统需要解决的问题。本文在说明(三)的基础上,继续探讨为SiPM读出测试系统寻求合适的模拟脉冲检出方案。前四代SiPM使用的高速比较器指标缺陷 由于前端模拟信号属于典型的指数脉冲,所以下降沿转换速率(Slew Rate)过慢,导致比较器检出出现不必要的问题。尽管比较器可以使能滞回(Hysteresis)模块功
    coyoo 2024-12-03 12:20 170浏览
  • 学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&
    youyeye 2024-11-30 14:30 85浏览
  •         温度传感器的精度受哪些因素影响,要先看所用的温度传感器输出哪种信号,不同信号输出的温度传感器影响精度的因素也不同。        现在常用的温度传感器输出信号有以下几种:电阻信号、电流信号、电压信号、数字信号等。以输出电阻信号的温度传感器为例,还细分为正温度系数温度传感器和负温度系数温度传感器,常用的铂电阻PT100/1000温度传感器就是正温度系数,就是说随着温度的升高,输出的电阻值会增大。对于输出
    锦正茂科技 2024-12-03 11:50 143浏览
  • 《高速PCB设计经验规则应用实践》+PCB绘制学习与验证读书首先看目录,我感兴趣的是这一节;作者在书中列举了一条经典规则,然后进行详细分析,通过公式推导图表列举说明了传统的这一规则是受到电容加工特点影响的,在使用了MLCC陶瓷电容后这一条规则已经不再实用了。图书还列举了高速PCB设计需要的专业工具和仿真软件,当然由于篇幅所限,只是介绍了一点点设计步骤;我最感兴趣的部分还是元件布局的经验规则,在这里列举如下:在这里,演示一下,我根据书本知识进行电机驱动的布局:这也算知行合一吧。对于布局书中有一句:
    wuyu2009 2024-11-30 20:30 143浏览
  • 当前,智能汽车产业迎来重大变局,随着人工智能、5G、大数据等新一代信息技术的迅猛发展,智能网联汽车正呈现强劲发展势头。11月26日,在2024紫光展锐全球合作伙伴大会汽车电子生态论坛上,紫光展锐与上汽海外出行联合发布搭载紫光展锐A7870的上汽海外MG量产车型,并发布A7710系列UWB数字钥匙解决方案平台,可应用于数字钥匙、活体检测、脚踢雷达、自动泊车等多种智能汽车场景。 联合发布量产车型,推动汽车智能化出海紫光展锐与上汽海外出行达成战略合作,联合发布搭载紫光展锐A7870的量产车型
    紫光展锐 2024-12-03 11:38 126浏览
  • 遇到部分串口工具不支持1500000波特率,这时候就需要进行修改,本文以触觉智能RK3562开发板修改系统波特率为115200为例,介绍瑞芯微方案主板Linux修改系统串口波特率教程。温馨提示:瑞芯微方案主板/开发板串口波特率只支持115200或1500000。修改Loader打印波特率查看对应芯片的MINIALL.ini确定要修改的bin文件#查看对应芯片的MINIALL.ini cat rkbin/RKBOOT/RK3562MINIALL.ini修改uart baudrate参数修改以下目
    Industio_触觉智能 2024-12-03 11:28 115浏览
  • 作为优秀工程师的你,已身经百战、阅板无数!请先醒醒,新的项目来了,这是一个既要、又要、还要的产品需求,ARM核心板中一个处理器怎么能实现这么丰富的外围接口?踌躇之际,你偶阅此文。于是,“潘多拉”的魔盒打开了!没错,USB资源就是你打开新世界得钥匙,它能做哪些扩展呢?1.1  USB扩网口通用ARM处理器大多带两路网口,如果项目中有多路网路接口的需求,一般会选择在主板外部加交换机/路由器。当然,出于成本考虑,也可以将Switch芯片集成到ARM核心板或底板上,如KSZ9897、
    万象奥科 2024-12-03 10:24 96浏览
  • 11-29学习笔记11-29学习笔记习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-02 23:58 95浏览
  • TOF多区传感器: ND06   ND06是一款微型多区高集成度ToF测距传感器,其支持24个区域(6 x 4)同步测距,测距范围远达5m,具有测距范围广、精度高、测距稳定等特点。适用于投影仪的无感自动对焦和梯形校正、AIoT、手势识别、智能面板和智能灯具等多种场景。                 如果用ND06进行手势识别,只需要经过三个步骤: 第一步&
    esad0 2024-12-04 11:20 109浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦