当DeepSeek改写AI叙事,突破“内存墙”的MRDIMM将是下一个爆点?

BOE知识酷 2025-02-12 11:31

图片

知识酷Pro 👆
学显示行业知识
找小酷!
图片

第1845篇推文
图片


2025年的春节,可能是中国有史以来科技味最浓的。一切,都只因为DeepSeek的横空出世。








作为全球增速最快的AI应用,DeepSeek上线20天来,日活用户数突破2000万,目前达到了ChatGPT的23%,并且应用每日下载量接近500万。饶毅教授甚至在其个人公众号上评价道,“DeepSeek是鸦片战争以来,中国对人类最大的科技震撼。”


如此之快的爆发速度,一方面说明DeepSeek的开源和低价策略正在重构AI应用行业生态,使得更多中小公司有机会加入AI竞争,削弱了巨头的护城河。另一方面,DeepSeek-R1在数学、代码等任务上展现出了比肩OpenAI o1的长文本推理和自我修正能力,表明DeepSeek大幅推动了AI推理能力的提升,拓展了AI推理在复杂任务和专业领域的应用边界,使AI能够更好地处理复杂的推理问题。


数据显示,DeepSeek通过架构创新,使显存占用降至传统架构的5%-13%,推理成本仅为GPT-4 Turbo的1/70,训练成本更是OpenAI同类模型的1/10。这意味着,在大幅降低算力依赖的同时,DeepSeek也颠覆了AI行业的底层逻辑——从依赖算力堆砌转向算法驱动效率,继而加速整个行业生态向开源、普惠方向演进。


但这并不代表DeepSeek未来在模型性能方面会存在任何妥协。事实上,为了进一步提升模型性能,尤其是在处理更复杂的任务,如多模态融合、更深入的语义理解和更精准的生成,DeepSeek模型参数量将继续增大,从而对内存容量和带宽提出更高的需求。


这一过程中,一种新型内存架构——多路复用双列直插内存模组(Multiplexed Rank DIMM, MRDIMM)将因此受益。作为一种高性能的内存互连解决方案,MRDIMM能够提供更高的内存密度和带宽,满足以DeepSeek为代表的大模型对大规模数据处理的需求。




AI发展,苦“三力”久矣




这里的“三力”,即“算力”、“存力”和“运力”。


以大语言模型GPT为例,2022年11月发布的GPT-3使用了1750亿个参数,而2024年5月发布的最新版本GPT-4o则使用了超过1.5万亿个参数。不仅是GPT系列,过去几年里,Transformer类模型参数数量的增长普遍都以指数级别呈现,每两年大约增加410倍。


从近年来服务器CPU的技术路径来看,一个显著的趋势是CPU厂商不断增加内核数量,CPU核心数呈指数级增长,如英特尔和AMD最新一代CPU核心数都达到了数十甚至上百的量级。同时,自2012年以来,数据中心服务器内存对速度、容量的要求每年都在以超过10倍的速度增长,且没有减缓的迹象。可以说,“算力”和“存力”在过去十年里的确是得到了空前的进步。


与之形成鲜明对比的,是为处理器提供必要的内存带宽一直是“一场艰苦的斗争”。传统内存RDIMM传输带宽的线性增长态势与CPU核心数量的指数增加速度不匹配,这是 AMD和英特尔在其主流处理器上转向DDR5内存的原因之一。


这也直接带动了DDR5市场的快速发展。市场调研机构Omdia分析指出,对DDR5的市场需求从2020年开始逐步显现,到2024年,DDR5将占据整个DRAM市场份额的43%左右。


可以想象,如果上述现象一直持续下去,在超过一定的核心数量后,所有CPU都会出现带宽分配不足的情况,从而无法充分发挥增加核心数量所带来的优势,严重制约CPU性能的发挥,形成了所谓的“内存墙”,难以满足系统性能的平衡。


AI推理、大数据应用、以及众多高性能计算工作负载侧也遇到了同样的情形。以先进驾驶员辅助系统(ADAS)为例,L2+/L3级别系统的复杂数据处理至少需要超过200GB/s的内存带宽;在L5级,如果车辆要能够独立地对周围动态环境做出反应,将需要超过500GB/s的内存带宽。


这些内存密集型计算之所以迫切需要大幅提高内存系统的带宽,以满足多核CPU中各个内核的数据吞吐要求,一是因为高带宽是复杂AI/ML算法的基本需求,二是相较于AI训练,AI推理更重视计算效率、时延、性价比等,而且AI推理需要应用到不同的端侧上,单纯依靠堆砌额外数量的GPU和AI加速器,很难在成本、功耗、系统架构等方面获得竞争优势。


因此,必须要找到更加高效的内存数据传输与处理体系架构,提高内存利用效率,才能有效化解“内存墙”问题,才能让庞大的数据和计算资源实现按需组合,并根据不同工作负载的需求动态配置内存资源。


这时,MRDIMM这样新的内存技术就逐渐走进了人们的视野之中。那么,什么是MRDIMM?它有何神奇之处?接下来,就让我们揭开MRDIMM的“前世今生”。




释放存储带宽的魔力




MRDIMM最早可追溯到DDR4世代的LRDIMM(Load Reduced DIMM,减载双列直插内存模块),该种类型的内存模组旨在降低服务器内存总线的负载,同时提高内存的工作频率和容量。


与服务器使用的传统内存模组RDIMM只采用RCD(Registered Clock Driver,寄存时钟器)相比,LRDIMM新增了DB(Data Buffer,数据缓冲器)功能,这种设计不但降低了主板上的信号负载,还允许在模组上使用更大容量的内存颗粒,从而能够显著提升系统内存容量。


JEDEC当时对于LRDIMM架构曾有过不同方案的讨论,最终采纳了中国澜起科技公司发明的“1+9”(1颗RCD+9颗DB)方案作为DDR4 LRDIMM的国际标准。这并不是一件容易的事情,要知道,在DDR4世代,全球只有IDT(后被日本瑞萨电子收购)、Rambus和澜起科技三家公司可以提供RCD及DB芯片套片。而在贡献DDR4 LRDIMM国际标准后,澜起科技也于2021年入选JEDEC董事会,进一步提升了自身的行业话语权。


图片

资料来源:澜起科技


进入DDR5世代,尽管根据JEDEC的定义,LRDIMM演变为“1颗RCD+10颗DB”的架构,但由于DDR5内存模组容量较DDR4有显著增加,使得DDR5 LRDIMM的性价比优势逐步缩小,其在服务器内存中的占比并不是很大。


此时,沿用了与LRDIMM类似的“1+10”技术架构,即需要搭配1颗MRCD(多路复用寄存时钟驱动器)芯片和10颗MDB(多路复用数据缓冲器)芯片,能实现更高内存带宽的MRDIMM开始登上历史舞台。


从工作原理角度来讲,MRDIMM能显著提升接口速度和内存带宽的关键,源于其在内存模组上集成的多路复用器或数据缓冲器。得益于此,MRCD能够在标准速率下同时生成四个芯片选择信号,支持更复杂的内存管理操作;MDB可以把两个内存阵列的传输数据组合为一个,一个内存阵列可以传输64字节的数据,两个内存阵列同时操作就可以一次传输128字节数据,使DRAM一次可以向CPU传输128个字节的数据,实现传输速率的翻倍。这样,带宽的魔力就被彻底的释放出来。


图片

资料来源:Lenovo


MRDIMM的优势概括起来主要有三点:

1

速率大幅提升。相较于同时期RDIMM支持6400MT/s速率,第一代MRDIMM支持8800MT/s速率,提升幅度接近40%,这一提升幅度过去往往需要2-3代才能实现。而第二代和第三代MRDIMM的速度更是将达到12,800 MT/s和17,600 MT/s。

2

与DDR5良好的兼容性。MRDIMM完美兼容常规RDIMM的连接器和外形规格,对客户来说,无需对主板进行任何改动,就可轻松实现升级。

3

出色的稳定性。MRDIMM全面继承了RDIMM的纠错机制及RAS(可靠性、可用性和可维护性)功能,确保无论数据缓冲区中产生何种复杂的独立多路复用请求,都能有效维护数据的完整性与准确性。

目前来看,HPCG(High Performance Conjugate Gradient)、AMG(Algebraic Multi-Grid)、Xcompact3d这些科学计算类的应用,以及大语言模型推理,是MRDIMM的最大受益者。


在美光和英特尔的一项联合测试中,研究人员使用了英特尔Hibench基准测试套件中的2.4TB数据集,在内存容量相同的情况下,相较RDIMM,MRDIMM的运算效率提高了1.2倍,使用容量翻倍的TFF MRDIMM时运算效率提高了1.7倍,内存与存储之间的数据迁移减少了10倍。


图片

资料来源:anandtech


MRDIMM也提升了AI推理的效率。在内存容量相同的情况下运行Meta Llama 3 8B大模型,使用MRDIMM后,词元的吞吐量(Token throughput)是RDIMM的1.31倍,延迟降低24%,首个词元生成时间(Time to first Token)降低13%,CPU利用效率提升26%,末级缓存(LLC)延迟降低20%。


图片

资料来源:anandtech


上述优势使得MRDIMM一经推出就受到产业界的广泛关注。通过采用DDR5的物理和电气标准,MRDIMM实现了内存技术的突破,使CPU单核心的带宽和容量得以扩展,极大改善了大算力时代“内存墙”桎梏,对于内存密集型计算效率的提升意义重大。




盘点MRDIMM的主要玩家




2024年7月,美光科技宣布推出MRDIMM,支持32GB到256GB广泛的容量选择,涵盖标准型和高型外形规格(TFF),适用于高性能1U和2U服务器。根据美光的测试数据,与RDIMM(支持速率6400MT/s)相比,MRDIMM(支持速率8800MT/s)有效内存带宽提升高达39%,总线效率提升超过15%,延迟降低高达40%。


当然,美光也不是第一个公开宣布MRDIMM样品的公司。三星在2024年6月宣布了自己的MRDIMM产品方案,该方案通过组合两个DDR5组件,使现有DRAM组件的带宽翻倍,可提供高达8.8Gb/s的数据传输速度。


而在更早之前的2022年底,SK海力士推出了用于特定英特尔服务器平台的MCR-DIMM技术,允许高端服务器DIMM以最低8Gbps的数据速率运行,较之当时DDR5内存产品(4.8 Gbps)相比,带宽提高了80%。


英特尔2024年10月推出的至强®6性能核(P-Core)处理器至强6900P,就将支持每秒8800MT的MRDIMM内存作为产品亮点之一,独立测试表明,使用MRDIMM的至强6处理器比使用传统RDIMM的相同系统性能提升高达33%。同时,通过使用标配的6400MT/s DDR5内存和更快的MRDIMM内存相结合的方式,英特尔可以处理对内存非常敏感的工作负载,包括科学计算、AI等。


图片

资料来源:英特尔


再回到MRDIMM本身,如前文所述,在MRDIMM实现双倍带宽的过程中,MDB芯片起到了至关重要的作用。目前全球可以提供完整MRCD/MDB芯片套片的供应商包括瑞萨电子、Rambus和澜起科技三家公司,这与DDR4世代的格局是一致的。


作为中国在内存接口芯片市场上的标杆型公司,2024年,澜起科技DDR5内存接口芯片出货量在第三季度超过DDR4内存接口芯片,其出货占比将在第四季度进一步增加,而MRCD/MDB芯片则实现超过7000万元人民币的销售收入。目前,澜起科技第一代 MRCD/MDB 套片产品已成功实现量产,第二代 MRCD/MDB 套片的工程样片已经推出,并在近日完成了向全球主要内存厂商的送样工作,有望再次引领行业技术发展潮流 。


澜起科技第二代MRCD芯片支持高达12800MT/s的速率,可精确缓冲并重新驱动来自内存控制器的地址、命令、时钟及控制信号。第二代MRCD芯片具有两个子通道,每个子通道又分为两个伪通道,以增加主机系统的总带宽。同时,两个子通道分别执行CA和DPAR输入信号的奇偶校验检查,两个伪通道分别接收CA(命令/地址)信号输入并生成独立的CA输出信号。


图片

资料来源:澜起科技


与之协同工作的第二代MDB芯片同样支持12800MT/s的数据速率。芯片主机侧配备双4位数据接口,运行速度是DRAM侧的两倍;DRAM侧设有四个4位数据接口,每个伪通道分配两个。MDB可高效的将两个DRAM侧DQ信号多路复用为一个主机侧DQ信号,并通过一个仅输入的控制总线接口,用于连接MRCD。




性能跃升及生态完善将共同推动MRDIMM的未来




从8,800MT/s到17,600MT/s,MRDIMM带宽和性能的显著提升对高性能计算、AI计算客户来说是颇具吸引力的。可以预见,基于推理应用的新一轮AI基础设施建设将刺激终端对MRDIMM需求。


同时,考虑到第一代MRDIMM目前只有英特尔的Granite Rapids支持,行业相关生态仍处于初期,但从第二代MRDIMM开始,随着相关技术逐步成熟,业内预计将有更多类型服务器CPU支持MRDIMM,行业生态将进一步完善,并最终实现终端需求放量。


对内存接口芯片厂商而言,考虑到一根MRDIMM需要标配十颗MDB芯片,MRDIMM的普及势必将大幅提升MDB芯片的需求,从而扩大内存接口芯片行业市场规模,全球三家内存接口芯片厂商也均会受益于该项新技术的发展。


但与其他方案相比,澜起科技在MRDIMM相关技术标准制定中具有的影响力,将有望成为其最强的竞争优势之一。从DDR4 DB到DDR5 DB,再到牵头制定MDB芯片国际标准,澜起科技在技术规范和兼容性上具备的权威性和前瞻性,能够帮助生态伙伴更好地适应未来行业的发展和变化,在市场竞争中占据有利地位。加之高效的客户支持,良好的产品兼容性, 以及与生态系统上下游厂商的深度合作, 都为澜起科技在MRDIMM领域的竞争力提供了坚实的基础。


END




BOE知识酷 欢迎加入知识酷Pro,分享显示行业知识、最新黑科技、办公软件技巧等。
评论 (0)
  • 在嵌入式语音系统的开发过程中,广州唯创电子推出的WT588系列语音芯片凭借其优异的音质表现和灵活的编程特性,广泛应用于智能终端、工业控制、消费电子等领域。作为该系列芯片的关键状态指示信号,BUSY引脚的设计处理直接影响着系统交互的可靠性和功能拓展性。本文将从电路原理、应用场景、设计策略三个维度,深入解析BUSY引脚的技术特性及其工程实践要点。一、BUSY引脚工作原理与信号特性1.1 电气参数电平标准:输出3.3V TTL电平(与VDD同源)驱动能力:典型值±8mA(可直接驱动LED)响应延迟:语
    广州唯创电子 2025-03-26 09:26 80浏览
  • 文/Leon编辑/cc孙聪颖‍“无AI,不家电”的浪潮,正在席卷整个家电行业。中国家电及消费电子博览会(AWE2025)期间,几乎所有的企业,都展出了搭载最新AI大模型的产品,从电视、洗衣机、冰箱等黑白电,到扫地机器人、双足机器人,AI渗透率之高令人惊喜。此番景象,不仅让人思考:AI对于家电的真正意义是什么,具体体现在哪些方面?作为全球家电巨头,海信给出了颇有大智慧的答案:AI化繁为简,将复杂留给技术、把简单还给生活,是海信对于AI 家电的终极答案。在AWE上,海信发布了一系列世俱杯新品,发力家
    华尔街科技眼 2025-03-23 20:46 78浏览
  • 无论你是刚步入职场的新人,还是已经有几年经验的职场老手,培养领导力都是职业发展中一个至关重要的环节。拥有良好的领导能力不仅能让你从人群中脱颖而出,也能让你在团队中成为一个值得信赖、富有影响力的核心成员。什么是领导力?领导力并不仅仅意味着“当老板”或者“发号施令”。它更多地是一种能够影响他人、激发团队潜能,并带领大家实现目标的能力。一位优秀的领导者需要具备清晰的沟通能力、解决问题的能力,以及对人心的深刻理解。他们知道如何激励人心,如何在压力下保持冷静,并能在关键时刻做出正确的决策。如何培养领导力?
    优思学院 2025-03-23 12:24 94浏览
  • 在智能终端设备快速普及的当下,语音交互已成为提升用户体验的关键功能。广州唯创电子推出的WT3000T8语音合成芯片,凭借其卓越的语音处理能力、灵活的控制模式及超低功耗设计,成为工业控制、商业终端、公共服务等领域的理想选择。本文将从技术特性、场景适配及成本优势三方面,解析其如何助力行业智能化转型。一、核心技术优势:精准、稳定、易集成1. 高品质语音输出,适配复杂环境音频性能:支持8kbps~320kbps宽范围比特率,兼容MP3/WAV格式,音质清晰自然,无机械感。大容量存储:内置Flash最大支
    广州唯创电子 2025-03-24 09:08 192浏览
  • 人形机器人产业节奏预估:2024年原型机元年,2025年小规模量产元年。当宇树科技H1人形机器人以灵动的手部动作在春晚舞台上演创意融合舞蹈《秧Bot》,舞出"中国智造"时,电视机前十几亿观众第一次深刻意识到:那个需要仰望波士顿动力的时代正在落幕。*图源:宇树科技短短数周后,宇树G1机器人又用一段丝滑的街舞在网络收割亿级播放量,钢铁之躯跳出赛博朋克的浪漫。2月11日,宇树科技在其京东官方旗舰店上架了两款人形机器人产品,型号分别为Unitree H1和G1。2月12日,9.9万元的G1人形机器人首批
    艾迈斯欧司朗 2025-03-22 21:05 137浏览
  • 核心板简介创龙科技 SOM-TL3562 是一款基于瑞芯微 RK3562J/RK3562 处理器设计的四核 ARM C ortex-A53 + 单核 ARM Cortex-M0 全国产工业核心板,主频高达 2.0GHz。核心板 CPU、R OM、RAM、电源、晶振等所有元器件均采用国产工业级方案,国产化率 100%。核心板通过 LCC 邮票孔 + LGA 封装连接方式引出 MAC、GMAC、PCIe 2.1、USB3.0、 CAN、UART、SPI、MIPI CSI、MIPI
    Tronlong 2025-03-24 09:59 187浏览
  • 在智能终端设备开发中,语音芯片与功放电路的配合直接影响音质表现。广州唯创电子的WTN6、WT588F等系列芯片虽功能强大,但若硬件设计不当,可能导致输出声音模糊、杂音明显。本文将以WTN6与WT588F系列为例,解析音质劣化的常见原因及解决方法,帮助开发者实现清晰纯净的语音输出。一、声音不清晰的典型表现与核心原因当语音芯片输出的音频信号存在以下问题时,需针对性排查:背景杂音:持续的“沙沙”声或高频啸叫,通常由信号干扰或滤波不足导致。语音失真:声音断断续续或含混不清,可能与信号幅度不匹配或功放参数
    广州唯创电子 2025-03-25 09:32 67浏览
  • 今年全国两会期间,“体重管理”和“育儿”整体配套政策引发了持久广泛关注。从“吃”到“养”,都围绕着国人最为关心的话题:健康。大家常说“病从口入”,在吃这件事上,过去大家可能更多是为了填饱肚子,如今,消费者从挑选食材到厨电都贯彻着健康的宗旨,吃得少了更要吃得好了。这也意味着在新消费趋势下,谁能抓住众人的心头好,就能带起众人的购买欲望,才能在新一轮竞争中脱颖而出。作为家电行业的风向标,在2025年中国家电及消费电子博览会(AWE)上,这两个话题也被媒体和公众频繁提及。深耕中国厨房三十余年的苏泊尔再次
    华尔街科技眼 2025-03-22 11:42 83浏览
  • 在智慧城市领域中,当一个智慧路灯项目因信号盲区而被迫增设数百个网关时,当一个传感器网络因入网设备数量爆增而导致系统通信失效时,当一个智慧交通系统因基站故障而导致交通瘫痪时,星型网络拓扑与蜂窝网络拓扑在构建广覆盖与高节点数物联网网络时的局限性便愈发凸显,行业内亟需一种更高效、可靠与稳定的组网技术以满足构建智慧城市海量IoT网络节点的需求。星型网络的无线信号覆盖范围高度依赖网关的部署密度,同时单一网关的承载设备数量有限,难以支撑海量IoT网络节点的城市物联系统;而蜂窝网络的无线信号覆盖范围同样高度依
    华普微HOPERF 2025-03-24 17:00 177浏览
  •       知识产权保护对工程师的双向影响      正向的激励,保护了工程师的创新成果与权益,给企业带来了知识产权方面的收益,企业的创新和发明大都是工程师的劳动成果,他们的职务发明应当受到奖励和保护,是企业发展的重要源泉。专利同时也成了工程师职称评定的指标之一,专利体现了工程师的创新能力,在求职、竞聘技术岗位或参与重大项目时,专利证书能显著增强个人竞争力。专利将工程师的创意转化为受法律保护的“无形资产”,避免技术成果被他人抄袭或无偿使
    广州铁金刚 2025-03-25 11:48 128浏览
  •        当今社会已经步入了知识经济的时代,信息大爆炸,新鲜事物层出不穷,科技发展更是一日千里。知识经济时代以知识为核心生产要素,通过创新驱动和人力资本的高效运转推动社会经济发展。知识产权(IP)应运而生,成为了知识经济时代竞争的核心要素,知识产权(Intellectual Property,IP)是指法律赋予人们对‌智力创造成果和商业标识等无形财产‌所享有的专有权利。其核心目的是通过保护创新和创意,激励技术进步、文化繁荣和公平竞争,同时平衡公共利益与
    广州铁金刚 2025-03-24 10:46 75浏览
  • WT588F02B是广州唯创电子推出的一款高性能语音芯片,广泛应用于智能家电、安防设备、玩具等领域。然而,在实际开发中,用户可能会遇到烧录失败的问题,导致项目进度受阻。本文将从下载连线、文件容量、线路长度三大核心因素出发,深入分析烧录失败的原因并提供系统化的解决方案。一、检查下载器与芯片的物理连接问题表现烧录时提示"连接超时"或"设备未响应",或烧录进度条卡顿后报错。原因解析接口错位:WT588F02B采用SPI/UART双模通信,若下载器引脚定义与芯片引脚未严格对应(如TXD/RXD交叉错误)
    广州唯创电子 2025-03-26 09:05 77浏览
  • 在人工智能与物联网技术蓬勃发展的今天,语音交互已成为智能设备的重要功能。广州唯创电子推出的WT3000T8语音合成芯片凭借其高性能、低功耗和灵活的控制方式,广泛应用于智能家居、工业设备、公共服务终端等领域。本文将从功能特点、调用方法及实际应用场景入手,深入解析这款芯片的核心技术。一、WT3000T8芯片的核心功能WT3000T8是一款基于UART通信的语音合成芯片,支持中文、英文及多语种混合文本的实时合成。其核心优势包括:高兼容性:支持GB2312/GBK/BIG5/UNICODE编码,适应不同
    广州唯创电子 2025-03-24 08:42 161浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦