前不久,妹子找到我,说她负责的那个项目有两个Task不跑了,而且很着急的样子……
我问了一圈才知道是客户发现的问题,某些功能不起作用,反馈回到项目这边。项目经理也是一脸懵逼,上一个版本还好好的,这个版本功能就不行了,功能不起作用对客户来说是挺严重的。然后,客户催着紧,妹子排查了很久,最终是发现是几个task不运行了,奇怪的很,一时间她也不知道根本原因。在项目经理的“淫威”下,她只好急匆匆地找我支援。妹子找我,肯定是有求必应的。话说回来,我也好奇得很,于是先安抚下她脆弱的小心灵,说,“淡定不要慌,这种100%能复现出来的问题好搞”。我心想,这种问题虽然奇怪,也许并不复杂,按妹子目前的水平,应该很快能定位到原因的啊。她说,这个问题原来是另外一个做应用的同事负责排查的,找不到原因,搞了几个delay好像又变好点,怀疑是不是时序哪里出了问题,然而一直没找到原因。那边听说,项目经理充大头,给客户立了军令状,说三天可以解决,这已经过了两天了啥都没搞出来,急了,找到妹子了,说妹子是这个项目负责系统这方面的,要她出马。妹子听了另外那个同事“胡说”,排查了半天时序,一无所获,最后换思路,仿真看到程序运行一段时间后,有两个Task不跑了。
本来,她自己可以继续分析下去的。但是,要到点下班了,她旁边的项目经理,一直在催“搞定了吗”,“还要多久”,“要不要找其他人支持下”……
碰巧我经过,然后顺便问了下我(其实希望我支持下她)。
接着,我在她座位电脑上,看着仿真,确认了问题,确实是有两个Task的循环得不到运行时间片,Idle Task也是这样。因为其他几个Task是能运行的,可以排除程序挂死的情况。
我最不喜欢有人在后面看着我找bug了,特别是还唠唠叨叨的那种。于是我编个理由将项目经理支开了,说麻烦他点个外卖,表现要出决战到天亮的样子。当然,把妹子留着我身边——“并肩作战”!
有妹子在旁边,我越战越勇,看代码越看越精神,有条不紊地,我将所有Task的运行情况做了个汇总。
当然,为了教妹子一些调试方法,都是从最简单最基本的操作开始,给每个Task设个断点,反反复复地尝试。Task
| 运行是否正常
|
Task1
| 运行
|
Task2 | 运行 |
... | 运行 |
Task6 | 不运行
|
Task7
| 不运行 |
查了下配置,发现Task6和Task7的优先级是比较低的两个。
那么,可以猜测出,肯定是有个Task运行没释放时间片,但是啥应用有这么忙碌?
但是,我看了一遍,配置的task都有个OS的delay或者系统调度函数释放时间片的,不至于霸占时间片不放。
Task
| 优先级
| 运行是否正常
|
Task1
| 5
| 运行
|
Task2 | 5
| 运行 |
Task3 | 4
| 运行 |
Task4 | 4 | 运行 |
Task5 | 3
| 运行?
|
Task6
| 2
| 不运行 |
Task7 | 1
| 不运行 |
IDLE | -1
| 不运行 |
其中Task5有点怪,虽然状态是Running的,但似乎也不运行。
看到这个,妹子问,是不是Task5出问题了?这个Task功能好多,要怎么排查呢?
我看得出来,妹子心里没底,好像吃饭的胃口都没有,就随便吃了点。
看着她心事重重的样子,恰恰又印证了她的责任心比较强。于是,我安慰她,肯定是Task5出问题了,而且我猜是Task5没释放资源……“呃?……”妹子的语气透露出她的好奇,还带着一点不可置信。
“我有方法,一会调试给你看……”。然后妹子又多吃了两口饭。
接着,我就在Task5的地方设置断点,一遍一遍反复看,妹子也不厌其烦一遍一遍跟我一起看。甚至,我在想,就这样一直看下去……
最终,有一次Task5运行后,后面再也不回来了……之前在Task5的while(1)循环里面的前面部分,设置了一个断点。诡异地发现,后面它不运行了,但查看其Task状态是running的。
至于查看Task状态这个,我教妹子翻了OS很多内核的内容,她总是夸我太厉害了,这么深的内容都能翻出来。
看着她一脸崇拜的样子,像个小迷妹一样,似乎我心里有一丝丝成就感。回到正题,我问妹子,从目前的的分析看,你能推测这个问题原因吗?
“Task5在while循环定位不了了,但状态是running的,应该是Task5运行着跳出去循环了吧……”她有条不紊地推理着,完全没有了之前的慌张了,也忘记时间了,很投入地分析这个问题。
但答案还是需要分析证据的。接下来,我们配合着仿真分析代码。于是,我又问,“你觉得Task5是如何退出循环的?”
“break或者return?goto也有可能……”于是,我们逐行分析Task5里面的代码,看着这堆乱七八糟的像“屎山”一样的代码,有点想吐槽,碍于妹子在旁边,我忍住了。
“哇,谁写的代码,这么乱,像……”妹子有点没忍住。
#define CHECK_FUNCTION_CFG() do{\
if(get_func_cfg()){\
func_run = true;\
}else{\
func_run = false;\
return;\
}\
}whle(0)
“哦……就这个return咯”,妹子有点迫不及待了,脸上洋溢着兴奋。
void Task5(void)
{
while(1)
{
CHECK_FUNCTION_CFG();
}
}
“是陈工做的。前段时间客户提了个需求,产品经理就说价格配置是来判断,觉得很简单,下个版本就可以搞定。”“哦……老板说陈工是身经百战的人,不至于啊,算了不管了”其实我也懒得追究这些人这些事了。
于是,我想考考妹子,“你知道为什么Task5跳出循环后,Task6/Task7和IDLE就不运行了吗?”
“因为Task5占用的时间片还没释放,所以,优先级比它低的Task,即Task6/Task7和IDLE获取不到运行时间片,所以无法运行。”她反应还挺快的。
“因为他们的优先级比较高……”她若有所思,但又不十分肯定地说。
“对的,是优先级比较高,但是你知道为什么优先级高就可以运行呢?”其实我想考察她对内核的调度熟不熟悉。
她思考片刻,说,“因为高优先级的Task从等待状态到就绪状态,如果没有比它优先级高的Task在运行,它就会强占时间片运行……”
然后巴拉巴拉,她继续说了很多,表达虽然有些生硬,但算是理解这个OS的状态切换原理了。
接着,我毫不保留地夸了她一番,她还有些害羞,低着头微笑着。
“那你打算怎么向项目经理或者客户解释这个问题呢?或者有其他人问你这个根本原因,你打算怎么解释?”除了要教她技术上的内容,我还关注她如何总结表达一个技术问题。
这次,她在我面前犹豫了,因为之前汇报问题吃过亏……
我就给她举了个例子,用我灵魂画手画了几只小狗,然后解释道:
有7只小狗狗在吃饭,但是只有一个饭盘,大家轮流吃。但是,其中有一只黄头狗5,喜欢胡思乱想,有一次轮到它吃东西了,它就摁着盘子不放,睡着了做着白日梦……比它小的两只小狗6和小狗7,饿着嗷嗷叫,却不敢抢,因为他们两个比较小,抢不过黄头狗5.而小狗1/2/3/4,因为比黄头狗5大,饿了直接过去抢着吃。
“哈哈哈……很形象哦,师兄真厉害,举例子都这么生动……”
不知不觉,已经是深夜十一点多了……发现办公室里的小伙伴都回去了,可恨的是,项目经理也回去!偌大的办公室,刹那间变得很安静,就剩下了我们俩,还有说有笑……
“师兄,我知道问题了,也知道怎么改了。”她打破了平静。
“很晚了,明天再改吧……‘调查研究就像十月怀胎,决策就像一朝分娩’”
不知是否因为办公室过于安静,我隐约听到她的肚子咕咕叫……
“听到你讲小狗吃饭的例子,突然肚子有点饿了。”她马上化解了尴尬,“要不,我们去宵夜吧……”
“呃……嗯……好吧!”我有点不相信,她居然主动约我去宵夜!“那你先给项目经理简单发个邮件,说项目问题定位出来了。免得他半夜打电话骚扰你……”我接着不慌不忙地跟她吩咐道。“还是你细心……”她似乎在夸我。我都有点不好意思了。于是,在暗黄的路灯下,两个加班狗就这样慢慢地消失在朦胧的夜色中……关注公众号“嵌入式软件实战派”,获得更多关于我和妹子RTOS的故事。