ZNS来了!一文看懂NVMe分区存储!

SSDFans 2020-08-11 00:00


点击蓝字
关注我们



如何启用NVMeZNS

ZNS的硬件变化

在较高层次上,为了启用ZNS,市场上的大多数SSD只需要更新固件。ZNSSSD控制器或其他硬件组件没有任何新的要求,仅通过更改固件,就可以为现有SSD实现此特性。

 

硬件中的关键因素在于SSD被设计成只支持ZNS。首先,也是最重要的一点,只使用ZNSSSD不需要像传统企业SSD那样过度配置。ZNS SSD同时负责执行磨损平衡,但不再需要为垃圾回收过程提供很大的备用区域。使用得当,ZNS允许主机软件避免SSD内部写入放大(Write Amplification,即WA)的几乎所有情况。企业级SSD通常使用高达28%的超额配置比率(在典型的3 DWPD模型上,每1024GB闪存可用800GB) ZNS SSD可以将几乎所有的容量暴露给主机系统,同时不会影响高持续写性能的能力。ZNS SSD仍然需要一些备用容量(如用于应对闪存耗尽时突然出现的故障),但西部数据表示,预计ZNS在过载比率方面可以降低大约10倍。



WA的更好控制也意味着在某些用例下QLC NAND是一个更可行的选择(否则需要TLC NAND)。企业存储工作负载经常导致WA因子为2-5倍。使用ZNSSSD本身几乎不会引起WA,而合适的主机软件可以避免引起很多WA,因此总体效果是提高SSD寿命,弥补QLC相对于TLC较低的耐久性。即使在ZNS SSD中,QLC NAND从根本上还是比TLC慢,但是在SSD中几乎消除了后台数据管理,意味着基于QLCZNS SSD可以在QoS指标上与基于TLC的传统SSD竞争(尽管总吞吐量更低)。

 

ZNS支持的另一个主要硬件更改是DRAM需求的大幅降低。在传统的基于块的SSD中,闪存转换层(FTL)需要1GBDRAM来处理1TBNAND闪存,用来存储地址映射或间接表,记录当前存储每个逻辑块地址(LBA)的物理NAND闪存地址。1GB / 1TBFTL4kB粒度管理flash的结果。ZNS消除了这一需求,它让SSD管理每个区域数百MB的整个区域。追踪包含每个区域的物理NAND擦除块现在只需要很少的内存,甚至可以用控制器上的SRAM来完成,甚至可以用几十TB闪存的SSDZNS并不能让SSD完全不需要DRAM,因为SSD对每个区域需要存储的元数据比传统FTL需要为每个LBA存储量要大,同时SSD可能会使用一些DRAM缓存。

 

软件模型

为了与分区存储设备一起工作,为传统块存储设备编写的驱动程序(和其他软件)需要进行一些修改。最明显的是,主机软件必须遵守只能在区域内按顺序写入的新约束,但光这样还不够。分区存储还使主机软件负责更多的数据放置管理工作,处理这项工作首先要跟踪每个区域的状态。这比听起来要复杂得多,ZNS采用与主机管理的SMR硬盘相同的可能区域状态概念。技术上,分别对应SCSIATA命令集的ZBCZAC扩展:


7个圆圈中的每一个都表示ZNS SSD上某个区域的可能状态。这七个状态中的一些状态有一个明显的目的:空区(Empty)和满区(Full)被明显标识出来。

(一个区域在没有存储满其容量下,可以被置于Full状态。在这些情况下,将一个区域置于Full状态就像在烧录后完成光盘:在该区域被重置(擦除)之前,不能再写入任何内容。)

 

只读(Read Only)和离线(Offline)状态是当硬盘的闪存失败时使用的错误状态。虽然ZNS SSD减少了写放大,但仍需要在硬件层面上执行损耗均衡。只读和离线状态只在整个硬盘生命周期结束时才会出现。因此,许多以分区存储为目标的软件不会对这些状态做任何事情,一旦一个分区进入其中一种状态,就会简单地将整个设备视为死机。

 

现在还剩下三种状态:隐式打开(Implicitly Opened)、显式打开(Explicitly Opened)和关闭(Closed)。

 

处于这三种状态之一的区域被认为是活动的。在任何给定时间,硬盘往往会限制可以打开(显式或隐式)或活动区域的数量。产生这些限制是因为活动区域或开放区域需要一些额外的跟踪信息。对于每个活动区域,硬盘需要跟踪写指针,该指针指示该区域已经使用了多少容量以及对该区域的下一次写操作将在何处进行。写指针对于满区或空区不需要,因为满区不能接受更多的写操作,空区将从区域的开头写入。



一个区域必须打开才能接受新的写操作。区域可以通过简单地发出写命令隐式地打开,也可以使用区域管理命令显式地打开(该操作实际上不写新数据)

 

隐式和显式打开区域之间的区别在于:SSD控制器可以自由地自动关闭通过写命令隐式打开的区域;显式打开的区域只有在主机软件发出命令时才会处于关闭状态。

 

如果ZNS SSD打开的区域数量达到最大值,并且它们都是显式打开的,那么任何打开新区域的尝试都将失败。但是,如果其中一些区域只是隐式打开的,那么尝试打开一个新区域将导致SSD关闭其中一个隐式打开的区域。

 

开放区和关闭区之间的区别允许硬盘保持对内部资源的实际限制,以处理对区域新的写操作。在某种程度上,这只是从SMR硬盘的延续,但在闪存如何工作方面有一个相关的限制。现在,NAND闪存通常有大约16kB的页面大小,但是ZNS SSD仍然支持对单个LBA的写操作,通常是4kB(512字节)。这意味着写入一个区域可以使闪存单元在一个部分编程的状态。即使在只执行页面大小和正确对齐的写操作时,由于SSD通常将页面映射到物理内存单元的方式,单元格可能会一直处于部分编程状态,直到进一步的写操作到达。



处于部分编程状态的闪存单元很容易发生读取干扰错误,当试图从该单元或相邻单元读取时,可能会改变部分编程单元的电压。Open Channel SSD通过简单地禁止从这类页面读取来处理这个问题,但是分区存储模型试图避免对读取命令施加额外的限制。ZNS SSD通常会缓存最近写入的数据,这样读取命令就可以在不接触部分已编程的NAND页面的情况下进行处理。用于这种缓存的可用内存限制了开放区域的数量。

 

如果要关闭一个带有部分编程内存单元的开放区域,硬盘有两种选择:使用一些填充数据完成对这些单元的编程,跟踪区域中的漏洞,并希望主机后面不要尝试使用该区域的全部容量;或者硬盘可以一直缓冲最近写入的数据,甚至对于关闭区域也是如此。根据硬盘希望支持的活动区域数量,仍然允许ZNS SSD使用比传统SSD少得多的DRAM,因此这种方法在实践中更有可能被使用。既支持分区IO命名空间又支持块IO命名空间的SSD可能能够同时保持其所有区域处于活动状态或打开状态。

 

原则上,ZNS SSD可以将每个单独的闪存擦除块作为一个单独的区域,具体大小(可能是几兆字节)取决于底层闪存。这将意味着对单个区域的写入速度限制为对单个NAND闪存die的写入速度。对于最近的TLC NAND闪存,单模写入速度上升到大约82MB/s(三星第6V-NAND),对于QLC单模写入速度低于10MB/s。在实际中,硬盘倾向于聚集多个擦除块(支持跨多个die和所有控制器通道)的区域大小,这样对单个区域的顺序写(或读)就可以像传统的基于FTL SSD所支持的那样快。

 

最近的一个带有512GB ZNS原型SSD的西部数据演示显示,该硬盘使用256MB的区域大小(总共2047个区域),但也支持2GB区域。在单个分区的命名空间中,所有区域将使用相同的区域大小,但是硬盘可以支持重新格式化命名空间以更改其区域大小,或者支持使用不同区域大小的多个命名空间。

 

提示

许多最新的NVMe特性允许SSD和主机软件交换关于数据布局、访问模式和生存周期的可选提示。这是主机的SSD驱动特性,而不需要双方都支持使用该信息。ZNS使区域成为主机必须直接处理的显式概念,但对SSD的其他一些内部操作采用提示方法。

 

ZNS SSD不执行传统SSD意义上的垃圾回收,但它们仍然负责损耗均衡。这意味着硬盘将不得不重新定位数据到不同的物理NAND擦除块,特别是如果硬盘存储的都是不太会被修改的数据。重写整个区域(比说,256MB)是一项相当大的后台工作,它会对处理来自主机的IO命令的延迟产生显著影响。ZNS SSD可以通知主机,它建议重新设置一个区域,因为它计划很快在该区域上做一些后台工作,并可以通知该项工作多久之后会开始进行。这为主机提供了重新设置区域的机会,如果仍然需要区域中的部分数据,则可能需要主机自己进行一些垃圾回收。(为了帮助处理这种情况,NVMe还添加了一个Copy命令,以便将不同的数据块收集到单个连续的数据块中,而不需要数据离开SSD。)



类似地,ZNS SSD可以建议主机将活动区域移动到满状态,可以通过写满区域的剩余容量,或者发出区域Finish命令。

 

当主机软件同时注意以上提示并采取推荐的操作时,SSD就可以避免几乎所有对性能影响较大的后台操作或写放大操作。但是因为这些仅仅是暗示,如果主机软件忽略它们或者根本不符合要求,SSD仍然有义务在整个后台处理过程中保存用户数据。这可能会有一些副作用,例如在特殊情况下,硬盘必须将开放或活动区域移动到满状态,并且必须编写主机软件来容忍这些事件。完全消除写放大也是不可能的,例如,静态数据可能最终还是需要重写,以防止由于累积的读取干扰错误而产生不可纠正的错误。

 

支持多个写线程

在一个区域内按顺序写入数据的要求,对软件管理数据,特别是对现有数据的更新提出了明显的挑战。但是,当多个线程想要写入同一区域时,也会造成性能瓶颈。发送到SSD的每个写命令都需要定位到区域的写指针指向的LBA。当多个线程写入一个区域时,在线程检查写入指针的位置和写入命令到达SSD之间存在写入指针可以被另一个线程写入的竞争条件,将导致写入被SSD拒绝。为了防止这种情况发生,软件必须在线程之间同步,以正确序列化对每个区域的写操作。当有更多的线程在写线程时,所产生的锁开销往往会导致写性能下降,并且很难使队列深度超过1


 


为了解决这个限制,ZNS规范包括一个可选的append命令,可以用来代替write命令。append命令总是定位到区域的开头,但是当SSD开始处理该命令时,它将在写指针所在的位置写入数据。当通知该命令完成时,SSD将数据实际着陆的LBA主机。这消除了同步需求,并允许多个线程同时将新数据写入一个区域,而根本不需要corecore通信。缺点是主机软件变得更加复杂,现在它必须在事后记录数据位置,而不是在写入数据之前尝试分配空间。对于现有的IO API来说,即使是返回数据到达应用程序的地址也是一个挑战,因为它们通常只设置为返回错误代码给应用程序。

 

 

append命令不是解决这种可扩展性挑战的唯一解决方案;它只是这个NVMe ZNS规范的初始版本中标准化的一个。在原型或非标准的分区SSD中已经提出和实现了其他解决方案。Radian内存多年来一直在其SSD上支持自己的分区存储形式。他们的解决方案是允许在写指针前一定距离内的无序写操作。SSD将缓存这些写操作,并将写指针提前定位到数据目前写入的第一个间隙。还有一项NVMe技术提案正在标准化,即ZRWAZone Random Write Area),允许在SSD缓存中对数据进行随机写入和就地覆盖。与Zone Append命令相比,这两种方法在SSD都需要更多的资源,但可以证明,这使软件开发人员的工作更加轻松。


原文链接:

https://www.anandtech.com/show/15959/nvme-zoned-namespaces-explained




高端微信群介绍

创业投资群


AI、IOT、芯片创始人、投资人、分析师、券商

闪存群


覆盖5000多位全球华人闪存、存储芯片精英

云计算群


全闪存、软件定义存储SDS、超融合等公有云和私有云讨论

AI芯片群


讨论AI芯片和GPU、FPGA、CPU异构计算

5G群


物联网、5G芯片讨论

第三代半导体群

氮化镓、碳化硅等化合物半导体讨论

储芯片群

DRAM、NAND、3D XPoint等各类存储介质和主控讨论

汽车电子群

MCU、电源、传感器等汽车电子讨论

光电器件群

光通信、激光器、ToF、AR、VCSEL等光电器件讨论

渠道群

存储和芯片产品报价、行情、渠道、供应链




< 长按识别二维码添加好友 >

加入上述群聊




长按并关注

带你走进万物存储、万物智能、

万物互联信息革命新时代

微信号:SSDFans


SSDFans AI+IOT+闪存,万物存储、万物智能、万物互联的闪存2.0时代即将到来,你,准备好了吗?
评论 (0)
  • 及时生产 JIT(Just In Time)的起源JIT 起源于 20 世纪 70 年代爆发的全球石油危机和由此引发的自然资源短缺,这对仰赖进口原物料发展经济的日本冲击最大。当时日本的生产企业为了增强竞争力、提高产品利润,在原物料成本难以降低的情况下,只能从生产和流通过程中寻找利润源,降低库存、库存和运输等方面的生产性费用。根据这种思想,日本丰田汽车公司创立的一种具有特色的现代化生产方式,即 JIT,并由此取得了意想不到的成果。由于它不断地用于汽车生产,随后被越来越多的许多行业和企业所采用,为日
    优思学院 2025-04-07 11:56 79浏览
  • 引言:POPO声的成因与影响在语音芯片应用中,WT588F08A作为一款支持DAC+功放输出的高集成方案,常因电路设计或信号处理不当,在音频播放结束后出现POPO声(瞬态噪声)。这种噪声不仅影响用户体验,还可能暴露电路设计缺陷。本文将基于实际案例,解析POPO声的成因并提供系统化的解决方案。一、POPO声的根源分析1. 功放电路状态切换的瞬态冲击当DAC输出的音频信号突然停止时,功放芯片的输入端若处于高阻态或无信号状态,其内部放大电路会因电源电压突变产生瞬态电流,通过喇叭表现为POPO声。关键因
    广州唯创电子 2025-04-07 09:01 75浏览
  • 在追求环境质量升级与产业效能突破的当下,温湿度控制正成为横跨多个行业领域的核心命题。作为环境参数中的关键指标,温湿度的精准调控不仅承载着人们对舒适人居环境的期待,更深度关联着工业生产、科研实验及仓储物流等场景的运营效率与安全标准。从应用场景上看,智能家居领域要求温湿度系统实现与人体节律的协同调节,半导体洁净车间要求控制温湿度范围及其波动以保障良品率,而现代化仓储物流体系则依赖温湿度的实时监测预防各种产品的腐损与锈化。温湿度传感器作为实现温湿度监测的关键元器件,其重要性正在各行各业中凸显而出。温湿
    华普微HOPERF 2025-04-07 10:05 66浏览
  • 【拆解】+沈月同款CCD相机SONY DSC-P8拆解 这个清明假期,闲来无事,给大伙带来一个老古董物品的拆解--索尼SONY DSC-P8 CCD相机。这个产品是老婆好几年前在海鲜市场淘来的,由于显示屏老化,无法正常显示界面了,只有显示背光。但是这也无法阻止爱人的拍照。一顿盲操作依旧可以拍出CCD古董相机的质感。如下实拍: 由于这个相机目前都在吃灰。我就拿过来拆解,看看里面都是怎样个设计,满足下电子爱好者的探索。 首先给大伙展示下这台老相机的全貌。正视图  后视图 
    zhusx123 2025-04-06 17:38 78浏览
  • 伴随无线技术的迅速发展,无线路由器市场商机日益庞大。现代消费者在选购无线路由器(Wi-Fi AP)时,通常依赖的是该产品在无干扰的实验室环境中,量测得到的数据报告。然而,这些数据往往是在受控的RF隔离环境中进行测试,无法完全反映真实使用场景。这种情况导致许多消费者抱怨,他们购买的产品效能与宣称的数据不符。在实际应用中,消费者常因Wi-Fi讯号不稳定、传输速度不如预期或设备过热而产生客诉。产品仰赖实验室的数据够吗?无线路由器(Wi-Fi AP)ODM供货商遇到什么挑战?一家台湾知名的无线路由器(W
    百佳泰测试实验室 2025-04-05 00:12 44浏览
  • 引言:小型化趋势下的语音芯片需求随着消费电子、物联网及便携式设备的快速发展,产品设计对芯片的小型化、高集成度和低功耗提出了更高要求。厂家凭借其创新的QFN封装技术,推出WTV系列(如WTV380)及WT2003H系列语音芯片,以超小体积、高性能和成本优势,为紧凑型设备提供理想解决方案。产品核心亮点1. QFN封装技术赋能超小体积极致尺寸:WTV380采用QFN32封装,尺寸仅4×4毫米,WT2003H系列同样基于QFN工艺,可满足智能穿戴、微型传感器等对空间严苛的场景需求。高密度集成:QFN封装
    广州唯创电子 2025-04-07 08:47 57浏览
  • 【拆解】+南孚测电器拆解 之前在天猫上买了一盒南孚电池,他给我送了一个小东西—测电器。今天我们就来拆解一下这个小东西,看看它是怎么设计和工作的。 三颗指示灯显示电池剩余电量。当点亮3颗LED时,则表示点亮充足。当点亮2颗LED时,则表示还能用。当点亮1颗LED时,表示点亮地建议更换,当无法点亮LED时,则表示没电了。外壳上还印有正负极,以免用户将电池放反。 这个小东西拆解也很方便,一个螺丝刀稍微撬几下。外壳就下来了,它是通过卡扣连接。 开盖后,测电线路板清晰呈现在眼前。 让我们看看小小的线路板有
    zhusx123 2025-04-05 15:41 47浏览
  • 在影像软的发展历程中,美图曾凭借着美图秀秀等一系列产品,在“颜值经济”的赛道上占据了领先地位,成为了人们日常生活中不可或缺的一部分,也曾在资本市场上风光无限,2016 年上市时,市值一度超过46亿美元,备受瞩目。 然而,随着市场的不断发展和竞争的日益激烈,美图逐渐陷入了困境。商业模式单一,过度依赖在线广告收入,使得其在市场波动面前显得脆弱不堪;多元化尝试,涉足手机、电商、短视频、医美等多个领域,但大多以失败告终,不仅未能带来新的增长点,反而消耗了大量的资源。更为严峻的是,用户流失问题日
    用户1742991715177 2025-04-05 22:24 61浏览
  •   安全生产预警系统作为现代工业与安全管理的重要组成部分,正以前所未有的技术引领力,创新性地塑造着未来的安全管理模式。这一系统通过集成多种先进技术,如物联网、大数据、人工智能、云计算等,实现了对生产环境中潜在危险因素的实时监测、智能分析与及时预警,为企业的安全生产提供了坚实的技术保障。   技术引领:   物联网技术:物联网技术使得各类安全监测设备能够互联互通,形成一张覆盖全生产区域的安全感知网络。传感器、摄像头等终端设备实时采集温度、压力、气体浓度、人员位置等关键数据,为预警系统提供丰富的
    北京华盛恒辉软件开发 2025-04-05 22:18 52浏览
  • 文/杜杰编辑/cc孙聪颖‍2025年的3月,成功挺过造车至暗时刻的小米创始人雷军,接连迎来人生的高光。(详情见:雷军熬过黑夜,寄望小米SU7成为及时雨)在颜值即正义的舆论导向之下,全国两会期间,雷军凭借得体的衣着、挺拔的身姿赢得赞誉。面对雷军的压人表现,连行事一向沉稳、不愿跟风的海尔,都推出“leadership”组合拳,试图助力自家boss,不落下风。(详情见:两会声音|本届全国两会,周云杰为海尔省了多少广告费?)喜事接连不断,紧接着的3月18日,雷军重磅宣布小米 “史上最强年报”。雷军的公关
    华尔街科技眼 2025-04-03 20:30 39浏览
  • 在科技浪潮奔涌的当下,云计算领域的竞争可谓是如火如荼。百度智能云作为其中的重要参与者,近年来成绩斐然。2024年,百度智能云在第四季度营收同比增长26%,这样的增速在行业内十分惹眼。回顾全年,智能云业务的强劲增长势头也十分明显,2024年第一季度,其收入达到47亿元,同比增长12%;第二季度营收51亿元,同比增长14%。从数据来看,百度智能云在营收方面一路高歌猛进,展现出强大的发展潜力。然而,市场对百度智能云的表现似乎并不完全买账。2024年,尽管百度智能云数据亮眼,但百度股价却在震荡中下行。在
    用户1742991715177 2025-04-06 20:25 61浏览
  • OT(Operational Technology,运营技术)指的是用于监控和控制物理设备、流程和基础设施的技术,广泛应用于工业控制系统(ICS)、制造业、能源、电力、交通、水利等领域。OT网络主要包括SCADA(数据采集与监控系统)、DCS(分布式控制系统)、PLC(可编程逻辑控制器)等设备和协议,如Modbus、PROFINET、EtherCAT等。随着 IT/OT 融合、工业物联网(IIoT)、NDR、零信任架构等技术的落地,OT 网络正在向更开放、智能和安全的方向发展。然而,针对 OT
    艾体宝IT 2025-04-03 16:39 33浏览
  • 一、为什么流量可见性如此重要?在网络管理中,及时掌握流量状况至关重要,这不仅有助于快速排查故障、优化性能,还能提升安全防护能力。为了实现这一目标,企业通常依赖 SPAN 端口(交换机端口镜像)或 网络 TAP(测试接入点)来捕获和分析流量。然而,这两种方法在数据完整性、性能影响和监控能力上存在显著差异。如何选择合适的方案,以确保网络监控的精准性和高效性?本文将深入解析 SPAN 端口与网络 TAP 的核心区别,帮助你做出明智决策。二、SPAN 端口:简单易用,但有局限SPAN 端口也称为镜像端口
    艾体宝IT 2025-04-03 16:41 36浏览
  • 医疗影像设备(如CT、MRI、超声诊断仪等)对PCB的精度、可靠性和信号完整性要求极高。这类设备需要处理微伏级信号、高频数据传输,同时需通过严格的EMC/EMI测试。制造此类PCB需从材料选择、层叠设计、工艺控制等多维度优化。以下是关键技术与经验分享。 1. 材料选择:高频与生物兼容性优先医疗影像设备PCB常采用 Rogers RO4000系列 或 Isola FR4高速材料,以降低介电损耗并保证信号稳定性。例如,捷多邦在客户案例中曾为某超声探头厂商推荐 Rogers RO4350B
    捷多邦 2025-04-07 10:22 64浏览
我要评论
0
12
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦