数据中心场景下的内存交换技术TMO

SSDFans 2023-05-31 07:53

本篇论文是Facebook(Meta)公司发表在ASPLOS 2022上的文章。随着数据中心级应用对内存需求的不断增长,导致DRAM的成本成为数据中心的主要开销。为了解决这个问题,现有的思路是将冷数据卸载到其他替代介质中,如NVMe SSDs和其他非易失性设备。其中关键的挑战是要设计出具有足够鲁棒性的方法来适应不同特性的工作负载和不同的后端存储设备。这篇文章提出的TMO引入了一种新型的Linux内核机制来实时检测由于CPU、内存和IO的资源短缺导致的工作丢失。通过这一信息,TMO可以根据设备性能特性和应用对内存访问降速的敏感型来自动决定卸载多少内存数据到异构设备中。同时为了最大化内存节省,TMO同时考虑了匿名页和文件页,并根据匿名页的换入率和文件页的重载率来进行均衡。目前TMO已经在数据中心中运行超过一年,并节省了20%-32%的内存。TMO已经成功编入Linux内核中了。
背景
随着如今数据中心对内存需求的增长,数据中心中内存的开销越来越大。图1展示了在Facebook数据中心中内存、压缩内存和SSD存储的开销。可以发现内存的开销占比越来越高,而其因此如何降低内存开销成为了重要的难题。而与此同时数据中心中每个服务器都配备了一个性能好的SSD,而SSD的开销占比仅为1%,因此如何利用SSD进行内存扩充成为关键。
图1:数据中心中内存、压缩内存和SSD的开销占比
动机和挑战
图2展示了内存中在过去1分钟、2分钟、5分钟被访问的数据量占比,同时也展示了五分钟内未被访问的数据占比。可以发现其中冷内存数据(5分钟内未被访问)占比平均约35%,这些冷内存数据即为内存所需要卸载的数据。同时还发现冷内存数据在不同应用中的占比不同,从19%到62%。这就需要设计一个鲁棒性强的技术来进行内存卸载。
图2:应用在1分钟、2分钟、5分钟内访问和5分钟内未访问内存数据占比
为了简化数据中心应用的操作,有很大一部分内存需要用来激活微服务和提供基础功能。文章中将数据中心内存税定义为软件包、分析、日志和和其他支持数据中心软件功能所需要占用的内存,同时将微服务内存税定义为应用程序由于需要分解为微服务所需要占用的内存,如支持导航和代理。图3展示了数据中心税和微服务税在内存中的占比。可以发现占比非常高,而这些内存税相较于应用直接访问的内存数据而言影响用户体验较小。因此这些内存税是内存主要需要卸载的对象。
图3:内存税及其中各部分的占比
图4展示了文件页和匿名页所占内存的比例。可以发现其中文件页和匿名页所占比例在不同应用中差异较大,这也使得在设计交换策略的时候需要综合考虑文件页和匿名页的需求,从而最大化节省内存。
图4:文件页和匿名页占用内存的比例
图5展示了市面上不同SSD在寿命、读写延迟和读写IOPS之间的差异性。可以发现不同SSD之间的差异很大,这就使得在设计交换策略的时候要考虑这个差异性,要使得其在不同SSD作为后端存储设备时都能表现优异。
图5:以对数为刻度展示SSD的特性。A-G指代不同的SSD
设计
TMO的目的是为了将冷数据卸载到后端存储上,并适用于不同应用和后端存储。为了实现这一目的TMO回答了在内存卸载时需要卸载多少数据以及卸载哪些数据。图6展示了TMO的整体架构图。其中TMO提出了用户层组件senpai(2)来控制内存卸载进程和决定每个工作负载需要卸载多少内存数据,内核组件压力阻塞信息PSI(3)以压力信息的方式表示应用性能下降的原因,并修改了内核回收内存的逻辑来决定卸载哪些内存数据。
图6:TMO的整体架构图
1. PSI:PSI提出根据进程阻塞的时间来判断该资源对性能下降的敏感程度。如图7所示,其中some为每个进程自己阻塞的时间,full为所有进程同时阻塞的时间。PSI可以应用于不同的系统资源中,如为了追踪内存压力,PSI记录内存缺失所出现的时间开销;IO压力为每个进程因IO阻塞时等待block IO完成的时间;CPU压力为进程运行时等待CPU空闲的时间。
图7:内核资源压力衡量指标
2. Senpai:Senpai根据PSI来实时衡量工作负载所需要的内存开销,从而释放超过这些所需开销的内存。即当衡量内存压力的PSI低于阈值的时候,将内存中的数据卸载到后端存储中,如图8所示。同时根据公式 来决定当前内存中有多少数据需要卸载。其中的参数经实验验证并不敏感,文中设置reclaim_ratio为0.0005,PSI_threshold为0.1%。
图8:Senpai执行示例
3. 重载检测机制:TMO提出重载率(refault ratio),当文件页在触发两次page fault进行换入时的时间间隔低于一个阈值,则判定出现了重载。根据重载率和匿名页的换入率进行比较,判断当前内存对文件页还是匿名页更加需要,从而判定卸载文件页还是匿名页。文件页和匿名页分别使用活跃/非活跃的LRU链表进行管理。
实验效果
1. 内存节省效果明显。文章从应用内存和内存税两个角度衡量内存节省结果,如图9所示为应用所需内存角度。当压缩内存作为后端存储时,TMO节省了7-12%的内存;当SSD作为后端存储时,TMO节省了10-19%的内存。同时如图10所示,TMO节省了平均13%的内存税。
图9:应用内存节省比率
图10:内存税节省比率
文章中还衡量了针对内存受限应用-web应用的性能和内存节省,对PSI指标和现在已有指标的对比实验,以及senpai参数调整的实验。同时针对SSD寿命问题,文章中提出通过调节内存卸载时的写入速率来避免SSD过度磨损,其中写入速率设为1MB/s。具体实验请大家参阅文章。
总结
为了解决当前数据中心内存资源开销大的问题,本文提出TMO应用在以SSD和压缩内存作为后端存储来扩充内存的场景下。TMO通过进程阻塞的时间作为衡量指标来判断当前进程对资源的需求程度,从而在内存资源不紧张的时候将内存冷数据卸载到后端存储设备中,来缓解内存压力。同时TMO通过对文件页重载率和匿名页换入率的比较来决定卸载什么类型的数据。实验结果显示TMO能够节省较多的内存,同时具有较强的鲁棒性,适应于不同的负载和后端存储介质。

The End

致谢


感谢本次论文解读者,来自华东师范大学的博士生罗龙飞,主要研究方向为混合式存储设备优化。


 点一下“阅读原文”获取论文

SSDFans AI+IOT+闪存,万物存储、万物智能、万物互联的闪存2.0时代即将到来,你,准备好了吗?
评论 (0)
  •   军事领域仿真推演系统的战略价值与发展前瞻   北京华盛恒辉仿真推演系统通过技术创新与应用拓展,已成为作战效能提升的核心支撑。以下从战略应用与未来趋势展开解析:   应用案例   目前,已有多个仿真推演系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润仿真推演系统。这些成功案例为仿真推演系统的推广和应用提供了有力支持。   一、核心战略应用   1. 作战理论创新引擎   依托低成本仿真平台,军事人员可高效验证新型作战概念。   2. 装备全周期优化   覆盖武器
    华盛恒辉l58ll334744 2025-05-14 16:41 101浏览
  •   电磁数据展示系统平台解析   北京华盛恒辉电磁数据展示系统平台是实现电磁数据高效展示、分析与管理的综合性软件体系,以下从核心功能、技术特性、应用场景及发展趋势展开解读:   应用案例   目前,已有多个电磁数据展示系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁数据展示系统。这些成功案例为电磁数据展示系统的推广和应用提供了有力支持。   一、核心功能模块   数据采集与预处理   智能分析处理   集成频谱分析、时频变换等信号处理算法,自动提取时域频域特征;
    华盛恒辉l58ll334744 2025-05-13 10:20 386浏览
  • 一、量子自旋态光学操控1、‌拓扑量子态探测‌磁光克尔效应通过检测拓扑磁结构(如磁斯格明子)的磁光响应,实现对量子材料中非平庸拓扑自旋序的非侵入式表征。例如,二维量子磁体中的“拓扑克尔效应”可通过偏振光旋转角变化揭示斯格明子阵列的动态演化,为拓扑量子比特的稳定性评估提供关键手段。2、‌量子态调控界面‌非厄米磁光耦合系统(如法布里-珀罗腔)通过耗散调控增强克尔灵敏度,可用于奇异点附近的量子自旋态高精度操控,为超导量子比特与光子系统的耦合提供新思路。二、光子量子计算架构优化1、‌光子内存计算器件‌基于
    锦正茂科技 2025-05-13 09:57 57浏览
  •   军事仿真推演系统平台核心解析   北京华盛恒辉军事仿真推演系统平台以计算机仿真技术为基石,在功能、架构、应用及效能上展现显著优势,成为提升军事作战与决策能力的核心工具。   应用案例   目前,已有多个仿真推演系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润仿真推演系统。这些成功案例为仿真推演系统的推广和应用提供了有力支持。   一、全流程功能体系   精准推演控制:覆盖推演启动至结束全流程。   智能想定管理:集成作战信息配置、兵力部署功能。   数据模型整合
    华盛恒辉l58ll334744 2025-05-14 17:11 83浏览
  • 在全球能源结构转型加速推进与政策驱动的双重作用下,油气输送、智慧水务及化学化工等流体计量场景正面临效率革命与智能化升级的迫切需求。传统机械式流量计虽在工业初期有效支撑了基础计量需求,但其机械磨损、精度衰减与运维困难等固有缺陷已难以适应现代工业对精准化、智能化与可持续发展的多维诉求。在此背景下,超声波流量计则凭借着高精度探测、可实时监测、无侵入式安装、无阻流部件、易于维护与绿色环保等优势实现了突破性发展,成为当代高精度流体计量体系中不可或缺的重要一环。该技术不仅是撬动能源利用效率提升、支撑智慧管网
    华普微HOPERF 2025-05-14 11:49 54浏览
  • 文/Leon编辑/cc孙聪颖‍2025年1月至今,AI领域最出圈的除了DeepSeek,就是号称首个“通用AI Agent”(智能体)的Manus了,其邀请码一度被炒到8万元。很快,通用Agent就成为互联网大厂、AI独角兽们的新方向,迅速地“卷”了起来。国外市场,Open AI、Claude、微软等迅速推出Agent产品或构建平台,国内企业也在4月迅速跟进。4月,字节跳动、阿里巴巴、百度纷纷入局通用Agent市场,主打复杂的多任务、工作流功能,并对个人用户免费。腾讯则迅速更新腾讯元器的API接
    华尔街科技眼 2025-05-12 22:29 165浏览
  •   舰艇电磁兼容分析与整改系统平台解析   北京华盛恒辉舰艇电磁兼容分析与整改系统平台是保障海军装备作战效能的关键技术,旨在确保舰艇电子设备在复杂电磁环境中协同运行。本文从架构、技术、流程、价值及趋势五个维度展开解析。   应用案例   目前,已有多个舰艇电磁兼容分析与整改系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润舰艇电磁兼容分析与整改系统。这些成功案例为舰艇电磁兼容分析与整改系统的推广和应用提供了有力支持。   一、系统架构:模块化智能体系   电磁环境建模:基
    华盛恒辉l58ll334744 2025-05-14 11:22 90浏览
  • 在当下的商业版图中,胖东来宛如一颗璀璨的明星,散发着独特的光芒。它以卓越的服务、优质的商品以及独特的企业文化,赢得了消费者的广泛赞誉和业界的高度关注。然而,近期胖东来与自媒体博主之间的一场激烈对战,却如同一面镜子,映照出了这家企业在光环背后的真实与挣扎,也引发了我们对于商业本质、企业发展以及舆论生态的深入思考。​冲突爆发:舆论场中的硝烟弥漫​2025年4月,抖音玉石博主“柴怼怼”(粉丝约28万)突然发难,发布多条视频直指河南零售巨头胖东来。他言辞犀利,指控胖东来在玉石销售方面存在暴利行为,声称其
    疯人评 2025-05-14 13:49 80浏览
  • 感谢面包板论坛组织的本次测评活动,本次测评的对象是STM32WL Nucleo-64板 (NUCLEO-WL55JC) ,该测试板专为LoRa™应用原型构建,基于STM32WL系列sub-GHz无线微控制器。其性能、功耗及特性组合经过精心挑选,支持通过Arduino® Uno V3连接,并利用ST morpho接头扩展STM32WL Nucleo功能,便于访问多种专用屏蔽。STM32WL Nucleo-64板集成STLINK-V3E调试器与编程器,无需额外探测器。该板配备全面的STM
    无言的朝圣 2025-05-13 09:47 199浏览
  •   电磁数据管理系统深度解析   北京华盛恒辉电磁数据管理系统作为专业的数据处理平台,旨在提升电磁数据的处理效率、安全性与可靠性。以下从功能架构、核心特性、应用场景及技术实现展开分析:   应用案例   目前,已有多个电磁数据管理系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁数据管理系统。这些成功案例为电磁数据管理系统的推广和应用提供了有力支持。   一、核心功能模块   数据采集与接入:实时接收天线、频谱仪等设备数据,兼容多协议接口,确保数据采集的全面性与实时性
    华盛恒辉l58ll334744 2025-05-13 10:59 300浏览
  • 一、蓝牙射频电路设计的核心价值在智能穿戴、智能家居等物联网设备中,射频性能直接决定通信质量与用户体验。WT2605C等蓝牙语音芯片的射频电路设计,需在紧凑的PCB空间内实现低损耗信号传输与强抗干扰能力。射频走线每0.1dB的损耗优化可使通信距离提升3-5米,而阻抗失配可能导致30%以上的能效损失。二、射频走线设计规范1. 阻抗控制黄金法则50Ω标准阻抗实现:采用4层板时,顶层走线宽度0.3mm(FR4材质,介电常数4.3)双面板需通过SI9000软件计算,典型线宽1.2mm(1.6mm板厚)阻抗
    广州唯创电子 2025-05-13 09:00 33浏览
  • 在当下竞争激烈的 AI 赛道,企业高层的变动往往牵一发而动全身,零一万物近来就深陷这样的动荡漩涡。近日,零一万物联合创始人、技术副总裁戴宗宏离职创业的消息不胫而走。这位在大模型基础设施领域造诣颇深的专家,此前在华为云、阿里达摩院积累了深厚经验,在零一万物时更是带领团队短期内完成了千卡 GPU 集群等关键设施搭建,其离去无疑是重大损失。而这并非个例,自 2024 年下半年以来,李先刚、黄文灏、潘欣、曹大鹏等一众联创和早期核心成员纷纷出走。
    用户1742991715177 2025-05-13 21:24 146浏览
我要评论
0
0