内功大增!从机械硬盘和固态硬盘的结构来看IO

一口Linux 2021-12-10 11:50

“磁盘”这个词,对于程序员来说并不陌生,我们知道它是一种存储介质,主要用来存储数据的,可以说常用的中间件基本上都离不开它,比如我们常用的MySQL数据库、kafka消息引擎,甚至redis缓存都离不开磁盘。

我们在优化某个业务逻辑的时候,经常需要用到缓存,尽量让热数据都从缓存里读取,因为我们知道磁盘是缓慢的,特别在高并发的场景下,我们要保证极少的请求走磁盘IO。不知道你有没有思考过以下问题:

  1. 机械硬盘为什么慢?
  2. 机械硬盘有多慢?
  3. kafka也是写磁盘的,它却挺快的,为什么?
  4. SSD为什么比普通的机械磁盘要快?
  5. 既然SSD这么快,那为什么不抛弃传统的机械磁盘?

带着这些疑问,我们一起来看看磁盘相关的知识。

从机械硬盘开始

这是一块普通机械硬盘的内部结构,它的组成并不多,我们重点关注磁盘磁头臂磁头就行。

先说磁盘,它的样子就像光盘,我们的数据就是存在它里面的,我们其实一般称它为盘片,盘片的表面涂有磁性的记录材料,注意这里不是只有一面可以存数据,盘片的两面都可以存,同时对于一块磁盘来说,通常它是由多个盘片组成的,因此的它组成应该是这样的。

图中一共有4个盘片,一共8个盘面,其中每个盘面都被画成了一圈一圈的同心圆。

这样的一圈一圈的橙色圆我们把它叫做磁道,当然磁道也是由一个个弧段组成的。

像如图的绿色弧段部分我们叫做扇区,扇区是磁盘组成的最小单位,一般一个扇区可以存储512个字节。

多个盘片相同的磁道,可以组成一个虚拟的圆柱,这个虚拟的圆柱面,我们叫做柱面

对于一个盘面来说,它的存储容量=单个扇区的大小 * 磁道的扇区数 * 磁道数。

对于一个盘片来说,它有两个面所以一个盘片的容量=2 * 盘面容量。

对于一个磁盘来说,磁盘的容量=盘片的数量 * 单盘片的容量。

说完了盘片,我们来说说磁头,我们的数据是在盘片上的,盘片上的数据并不能直接传输到总线上,因此需要一个媒介,这个媒介就是磁头,磁头可以把某个扇区的数据传输到总线上。

说完了磁头,接下来就是磁臂了,磁头解决了数据读写的问题,但是没有解决读写哪个扇区的问题,这时候就需要磁臂,磁臂可以在一定范围内摆动,来找到目标扇区。

当然磁臂的摆动范围有限,比如磁臂无论怎么摆动也无法摆动到扇区B处,这时就该转动盘片了,你应该听过磁盘的转速,比如7200转/分,这个其实就是转轴来带动盘片的转动的速度,因此最终通过盘片的转动+磁臂的摆动,就可以定位到我们的目标扇区。

机械硬盘有多快

搞懂了机械硬盘的物理结构之后,我们接下来看看它有多快。我们知道定位到一条数据需要盘片的转动,还需要磁臂的摆动,这些都是物理的,当我们的磁头定位到具体的扇区之后,读写数据的速度是很快的,因此影响机械硬盘读写速度的主要原因就是这两个物理运动,这两个物理运动对应两个专业名词叫做 平均延时平均寻道时间

我们先说平均延时,我们上面说到当一个目标扇区不在磁臂的摆动范围之内时,就要转动盘片,以7200转/min的磁盘为例,它每秒可以转动120圈,转一圈就是1/120s=8.33ms左右,那我们定位目标区域的平均耗时是多少呢?以一个磁道为例,它是圆形的,目标节点可以分布在圆上的任何位置。

比如当我们要找A的时候,可能只需要转一点点,找B的时候,可能要转半圈,找C的时候可能要转将近一圈。所以根据算术平均法可以大致判断平均找到一个目标节点需要转动半圈,这个半圈的时间就是8.33/2=4.17ms,也就是平均延时。

我们再来看看平均寻道时间,通过盘面的转动我们大致找到了目标区域,但是还没精确定位到,这时候需要磁臂的摆动去定位我们具体的目标扇区,这个摆动的耗时一般是4-10ms

因此磁盘随机IO大概的耗时就是4.17+4=8.17 ~ 4.17+10=14.14ms,这个数字代表了什么?我们取个折中,假设随机IO的耗时是10ms,那么1s可以做100次随机IO,看到100这个数字,你是不是明白了什么~,这个是真的小,这也是为什么我们对于QPS较高的接口,都要加个缓存层,因为磁盘扛不住啊。

这里科普下,我们上面说的1s内存能做100次随机IO,这个100我们叫做IOPS,即每秒的输入输出量(或读写次数),是衡量磁盘性能的关键指标

我们可以通过iostat,来查看当前机器磁盘的指标:

iostat
KB/t  tps  MB/s  us sy id   1m   5m   15m
23.44    9  0.20  12  8 80  2.40 1.97 1.90

其中tps就是我们当前磁盘的每秒传输次数,当这个数值很大时需要注意。

当然以上都是随机IO,顺序IO就大大不一样了,顺序IO的速度堪比内存的离散读写,总之很快,像大名鼎鼎的kafka就是磁盘顺序IO,所以至少在磁盘读写这块它的性能还不错。顺序IO之所以快,首先盘片不需要每次转动了,其次我们的磁臂也不需要大幅度的摆动去寻道了,因此节省了大量的物理耗时,速度和随机IO之间应该是数量级的差异。

更加快速的固态硬盘

先说个数字,我们日常用的机械硬盘的数据传输率差不多在200MB/s左右,而固态硬盘的传输率差不多在768MB/s,可以发现固态硬盘比普通机械硬盘快了不少,然而这只是在接口是SATA3.0的情况下,我们的固态硬盘还支持PCI Express接口,在这个接口下,固态硬盘的读写能力还会上一个等级,可以达到1GB/s以上,当然这些只是科普知识,作为程序员的我们不用太在意接口相关的知识。

我们还是先从原理开始讲起,固态硬盘的运作方式和机械磁盘一点都不一样,通过上图的内部结构可以看出,固态硬盘并没有盘片、磁臂等机械部件。

那么它是如何存储数据的呢?答案是电容,电容是非常小的电子元件,我们只需要给电容充上电,那么就可以表示比特位1,给电容放电就可以表示比特位0,采用这样方式存储数据的固体硬盘,我们一般称之为使用了SLC的颗粒,全称是 Single-Level Cell,也就是一个存储单元中只有一位数据,那么一块固态硬盘能存储多少数据就完全取决于能放多少电容,因此后来有的工程师发明了更高级的用法,即让一个电容里能放下2个比特位、3个比特位、甚至4个比特位。

那么问题来了一个电容如何表示这个多的比特位?答案是电压,给电容充电的玩意叫做电压计,以能放两位比特位的电容为例,它可以表示00、01、10、11 4个数字,放电状态是00,其余我们只需要充上不同的电压即可。

当然想要表示的数字越多,就得充很多不同的电压,因此速度就会相对慢些。

短命的固态硬盘

搞懂了固态硬盘的内部结构之后,我们来看看固态硬盘的读写原理,看看为什么固态硬盘的寿命不高。

相比机械硬盘存储数据的盘片,固态硬盘的叫做裸片,裸片之间也是叠放在一起的,以一个裸片为例,它的结构大致如下:

还是划分的概念,首先一张裸片上可以放多个平面,一般一个平面上的存储容量大概是GB级别,然后一个平面上可以分成很多块,一般一个块的存储大小,通常几百KB到几MB大小,一个块里面再就是分很多的页,一个页的大小通常是4KB,我们着重关注下,这和我们接下来要说的固态硬盘的寿命息息相关。

我们知道对于机械硬盘来说,我们写入数据的时候,不会在乎要写入的扇区是否已经有数据,直接覆盖就行了,但是固态硬盘就不一样了,如果某块要写的区域已经有数据了,必须要先擦除,然后才能写入

这个擦除很关键,因为它就是影响固定硬盘寿命的直接原因,擦的越多寿命就会越来越短,它就像你用一个橡皮擦在一张纸上擦拭一样,擦的多了,纸张也就通了,纸张通了,纸就不能用了。

那么一块固态硬盘可以擦除多少次呢?以单比特电容的模式来说,它大概可以擦除10w次,其他的多比特位的更少,可能只有几千次。因此如果的你业务数据需要经常更新,不太建议使用固态硬盘。

关于擦除数据,还有一点很重要,那就是它是以块为单位的,通过上图我们知道数据存储的最小单位其实是页,页属于块,一个块上有很多的页,如果一个块上的某些页的数据被标记删除了,此时也不能直接擦除这些单独的页,因此这些页就无法被复用,除非整个块上的页都被标记删除了。

如图,页A、页B、页C虽然都是被标记删除的数据,但是因为它所属的块还有其它有效数据,所以当有新数据要写入的时候,它只能写入白色区域未使用的页,并不能利用这些红色区域。但是这样的话,就会出现这样一个问题:随着时间的推移,红色区域会越来越多,也就是碎片越来越多,这样势必会造成浪费。

浪费可耻,因此需要一套紧凑机制,这时候会把相关块的有效数据移动到一个新的块中,让不同块的有效数据更加紧凑的分布,那么对于被移动出数据的块来说,它上面的页要么没数据,要么是标记删除的数据,可以直接对这个块进行擦除,从而达到回收利用的目的。

回到题目

通过对机械硬盘和固态硬盘的了解,我们再来看看一开始的问题:

  1. 机械硬盘为什么慢?机械磁盘慢的原因主要是因为定位一条数据需要盘片的转动 + 磁臂的摆动,这些都是物理的,所以会慢
  2. 机械硬盘有多慢?,通过上面的计算,我们可以大概得出对于一个7200转的机械硬盘来说,它的iops大概在100左右,每次io的耗时在10ms左右
  3. kafka也是写磁盘的,它却挺快的,为什么?因为kafka是顺序io,就算对于机械硬盘来说,顺序io也是很快的,因为它不会像离散io那样,需要过多的寻道。
  4. SSD为什么比普通的机械硬盘要快?这里主要因为SSD不需要像机械硬盘那样的物理运动来寻道。
  5. 既然SSD这么快,那为什么不抛弃传统的机械硬盘?首先从价格上来讲,固态硬盘价格稍贵,其次固态硬盘的寿命没有机械硬盘的高。

end



一口Linux 


关注,回复【1024】海量Linux资料赠送

精彩文章合集

文章推荐

【专辑】ARM
【专辑】粉丝问答
【专辑】所有原创
专辑linux入门
专辑计算机网络
专辑Linux驱动
【干货】嵌入式驱动工程师学习路线
【干货】Linux嵌入式所有知识点-思维导图


点击“阅读原文”查看更多分享,欢迎点分享、收藏、点赞、在看

一口Linux 写点代码,写点人生!
评论
  • 在智能化技术快速发展当下,图像数据的采集与处理逐渐成为自动驾驶、工业等领域的一项关键技术。高质量的图像数据采集与算法集成测试都是确保系统性能和可靠性的关键。随着技术的不断进步,对于图像数据的采集、处理和分析的需求日益增长,这不仅要求我们拥有高性能的相机硬件,还要求我们能够高效地集成和测试各种算法。我们探索了一种多源相机数据采集与算法集成测试方案,能够满足不同应用场景下对图像采集和算法测试的多样化需求,确保数据的准确性和算法的有效性。一、相机组成相机一般由镜头(Lens),图像传感器(Image
    康谋 2024-12-12 09:45 86浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-11 17:58 88浏览
  • 首先在gitee上打个广告:ad5d2f3b647444a88b6f7f9555fd681f.mp4 · 丙丁先生/香河英茂工作室中国 - Gitee.com丙丁先生 (mr-bingding) - Gitee.com2024年对我来说是充满挑战和机遇的一年。在这一年里,我不仅进行了多个开发板的测评,还尝试了多种不同的项目和技术。今天,我想分享一下这一年的故事,希望能给大家带来一些启发和乐趣。 年初的时候,我开始对各种开发板进行测评。从STM32WBA55CG到瑞萨、平头哥和平海的开发板,我都
    丙丁先生 2024-12-11 20:14 78浏览
  • 本文介绍瑞芯微RK3588主板/开发板Android12系统下,APK签名文件生成方法。触觉智能EVB3588开发板演示,搭载了瑞芯微RK3588芯片,该开发板是核心板加底板设计,音视频接口、通信接口等各类接口一应俱全,可帮助企业提高产品开发效率,缩短上市时间,降低成本和设计风险。工具准备下载Keytool-ImportKeyPair工具在源码:build/target/product/security/系统初始签名文件目录中,将以下三个文件拷贝出来:platform.pem;platform.
    Industio_触觉智能 2024-12-12 10:27 81浏览
  • 天问Block和Mixly是两个不同的编程工具,分别在单片机开发和教育编程领域有各自的应用。以下是对它们的详细比较: 基本定义 天问Block:天问Block是一个基于区块链技术的数字身份验证和数据交换平台。它的目标是为用户提供一个安全、去中心化、可信任的数字身份验证和数据交换解决方案。 Mixly:Mixly是一款由北京师范大学教育学部创客教育实验室开发的图形化编程软件,旨在为初学者提供一个易于学习和使用的Arduino编程环境。 主要功能 天问Block:支持STC全系列8位单片机,32位
    丙丁先生 2024-12-11 13:15 71浏览
  • 一、SAE J1939协议概述SAE J1939协议是由美国汽车工程师协会(SAE,Society of Automotive Engineers)定义的一种用于重型车辆和工业设备中的通信协议,主要应用于车辆和设备之间的实时数据交换。J1939基于CAN(Controller Area Network)总线技术,使用29bit的扩展标识符和扩展数据帧,CAN通信速率为250Kbps,用于车载电子控制单元(ECU)之间的通信和控制。小北同学在之前也对J1939协议做过扫盲科普【科普系列】SAE J
    北汇信息 2024-12-11 15:45 115浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-12 10:13 50浏览
  • 全球智能电视时代来临这年头若是消费者想随意地从各个通路中选购电视时,不难发现目前市场上的产品都已是具有智能联网功能的智能电视了,可以宣告智能电视的普及时代已到临!Google从2021年开始大力推广Google TV(即原Android TV的升级版),其他各大品牌商也都跟进推出搭载Google TV操作系统的机种,除了Google TV外,LG、Samsung、Panasonic等大厂牌也开发出自家的智能电视平台,可以看出各家业者都一致地看好这块大饼。智能电视的Wi-Fi连线怎么消失了?智能电
    百佳泰测试实验室 2024-12-12 17:33 67浏览
  • RK3506 是瑞芯微推出的MPU产品,芯片制程为22nm,定位于轻量级、低成本解决方案。该MPU具有低功耗、外设接口丰富、实时性高的特点,适合用多种工商业场景。本文将基于RK3506的设计特点,为大家分析其应用场景。RK3506核心板主要分为三个型号,各型号间的区别如下图:​图 1  RK3506核心板处理器型号场景1:显示HMIRK3506核心板显示接口支持RGB、MIPI、QSPI输出,且支持2D图形加速,轻松运行QT、LVGL等GUI,最快3S内开
    万象奥科 2024-12-11 15:42 88浏览
  • 应用环境与极具挑战性的测试需求在服务器制造领域里,系统整合测试(System Integration Test;SIT)是确保产品质量和性能的关键步骤。随着服务器系统的复杂性不断提升,包括:多种硬件组件、操作系统、虚拟化平台以及各种应用程序和服务的整合,服务器制造商面临着更有挑战性的测试需求。这些挑战主要体现在以下五个方面:1. 硬件和软件的高度整合:现代服务器通常包括多个处理器、内存模块、储存设备和网络接口。这些硬件组件必须与操作系统及应用软件无缝整合。SIT测试可以帮助制造商确保这些不同组件
    百佳泰测试实验室 2024-12-12 17:45 74浏览
  • 时源芯微——RE超标整机定位与解决详细流程一、 初步测量与问题确认使用专业的电磁辐射测量设备,对整机的辐射发射进行精确测量。确认是否存在RE超标问题,并记录超标频段和幅度。二、电缆检查与处理若存在信号电缆:步骤一:拔掉所有信号电缆,仅保留电源线,再次测量整机的辐射发射。若测量合格:判定问题出在信号电缆上,可能是电缆的共模电流导致。逐一连接信号电缆,每次连接后测量,定位具体哪根电缆或接口导致超标。对问题电缆进行处理,如加共模扼流圈、滤波器,或优化电缆布局和屏蔽。重新连接所有电缆,再次测量
    时源芯微 2024-12-11 17:11 117浏览
  • 铁氧体芯片是一种基于铁氧体磁性材料制成的芯片,在通信、传感器、储能等领域有着广泛的应用。铁氧体磁性材料能够通过外加磁场调控其导电性质和反射性质,因此在信号处理和传感器技术方面有着独特的优势。以下是对半导体划片机在铁氧体划切领域应用的详细阐述: 一、半导体划片机的工作原理与特点半导体划片机是一种使用刀片或通过激光等方式高精度切割被加工物的装置,是半导体后道封测中晶圆切割和WLP切割环节的关键设备。它结合了水气电、空气静压高速主轴、精密机械传动、传感器及自动化控制等先进技术,具有高精度、高
    博捷芯划片机 2024-12-12 09:16 87浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦