Deepseek进入业务深水区,为什么需要昇腾大EP?

原创 脑极体 2025-03-16 21:41



DeepSeek让各行业引入AI大模型的意识和积极性明显提高,已推动AI在政务、能源、制造等领域广泛铺展开来。


很多政企用户接入DeepSeek之后,感受到了AI大模型给业务带来了“旦用难回”的体验,很快就从试用的第一阶段,进入第二阶段——大模型推理集群的扩容升级。


当“有没有Deepseek用”不再成为问题,那么“Deepseek好不好用”的挑战就迎面而来。


一来,人多了,大量访问请求带来的高并发,就像春运高峰期涌入巨大的人流量,会出现请求积压,模型推理思考时间变长,token吞吐速度下降,用户的等待时延达到50-100毫秒,服务器繁忙和排队让人恼火。


二来,机器多了,增加更多服务器会遇到物理天花板,机器扩容并不会线性提升在线推理服务的体验,就像即使增加了更多车厢,但铁轨承载能力有限,也无法运送更多旅客(AI任务)了。


当行业智能化进入深度应用DeepSeek的第二阶段,不得不面临高并发推理的技术挑战。在堆算力的同时,也要同步优化性能体验,相当于想要运送更多乘客,不仅要增加车厢数量,还要同步改造轨道、站台和管理机制,将老式火车升级为高铁,才能综合提高运输效率。



以DeepSeek为例,前不久公布了其利润率,高达545%,其中就涉及大量工程化能力,比如引入大EP推理集群,实现高并发推理吞吐量指数级增长。


对于更多行业和企业来说,没有DeepSeek那样的极客天才和顶尖技术团队,怎样用大EP来解决高并发推理挑战呢?当AI大模型开始进入千行万业的深水区,亟需一场大EP的“运力革命”。



很多政企客户在接入了Deepseek之后,使用量进一步增加,有了扩展推理集群规模的需求,推理资源需要从2台扩展到10台,从16卡扩展到千卡,但扩容升级并不是往机房一放、网络一连,就能高枕无忧了。


就像印度仍在使用的老式火车,仅靠增加车厢,还是无法提高运力,每个乘客能占用的火车空间极小,体验很差,火车不堪重负,延误晚点成了家常便饭。类似问题,在Deepseek和各种大模型与业务的结合中,高并发推理卡住了用户的体验瓶颈。



面对上述问题,大EP大规模专家并行的技术架构,成为趋势。


简单来说,大EP就是将MoE(混合专家)模型中数千个专家,分配到更多的卡(算力)上去。原本一张卡只能拉10个人,有了大EP,可以同时拉100个(高并发);原本只能跑一趟车,现在可以同时跑八趟车(提高专家计算路数batch size),那么乘客就不用长时间等待了。


所以,通过大EP可以提高高并发推理场景下的计算效率,实现更大的吞吐和更低的时延。用户体感上,比如一家银行的工作人员同时访问Deepseek,不会遇到排队、延迟、过长等待等情况。


大EP这么好,怎么才能部署到自己的一体机或推理资源池呢?不经过一番努力,确实很难吃到大EP的蛋糕。



一方面,推理场景的算力需求指数级扩展,而海外厂商的推理芯片如H20,虽然显存高,但算力不足,处理大EP场景时吞吐骤降。Deepseek公开的论文来看,仍然使用H800来进行推理。更强算力且供应链稳定的推理硬件,是大EP必不可少的。


另一方面,当请求总量猛增之后,会带来多种多样的负载,且极不均衡,相当于有的车厢坐的人多,有的车厢坐的人少,负载不均一样会导致体验不佳。


此外,大EP场景的All-to-All通信,导致卡间通信占比时间高,相当于每个车厢的专家都要通知到,这就会耽误进出站的效率。NVLink在大EP场景中,实际有效带宽利用率就不足。


由此可见,当行业使用Deepseek进入深水区,面对高并发推理场景,不能抱有“头疼医头脚疼医脚”的侥幸心理,而需要通盘思考和系统攻坚。



今天来看,各行各业拥抱Deepseek不是追逐一时风口,而是对智能化发展趋势的长期价值判断。普惠LLM进入千行万业,已经是大势所趋。


而大EP无法顺利被行业用起来,就意味着接入Deepseek始终存在时延高、体验差、成本难优化的问题,那么行业智能化也就无法顺利达成。


不过也不必过于担心,Deepseek、科大讯飞等模厂,与昇腾等算力厂商,以及政企行业用户,一直保持着紧密协作与沟通,自开年Deepseek热潮以来,从部署实践中沉淀了大量技术创新。


近期,昇腾推出了大EP解决方案,面向高并发推理场景,一站式升级为智能化“高铁”。



具体来说,昇腾大EP解决方案借助五大关键技术,与昇腾算力深度协同优化,成功突破了“专家负载均衡+通信优化”两大难题。


针对专家负载不均的难题:


昇腾大EP解决方案提出了MoE负载均衡技术,可以自动寻优,根据业务情况、集群规模,找到最优的专家,自动预测哪个专家更忙,自动配比,当一个专家负载过多时自动讲解,从而实现了备份节点和副本专家灵活可扩展、高可用和极致均衡,性能得到极大提升。


采用多种创新技术,做到自适应的autoPD分离部署。根据Prefill和Decode的动态负载,进行P、D实例的自动伸缩,无需人工介入,从而减少计算访存资源竞争。结合多级缓存内存资源池化,对冷热温数据进行区分,可以让系统的有效吞吐提升50%以上。


针对All-to-All通信优化的难题:


昇腾大EP解决方案提出了双流/多维混合并行,其中Prefill micro-batch双流并行,可以实现计算和通信的相互掩盖;MoE expert专家双流并行,实现两条数据流Stream的并行计算;Weight权重预取双流并行,可以把访存和通信并行起来,降低权重加载时间,提升效率。



MLA预处理阶段,昇腾大EP解决方案把大量的小算子,合成为大的融合算子,将计算耗时降低70%,让算力能力充分发挥出来。


如果你觉得上述技术创新多、不好记,那么只需要,借助昇腾大EP解决方案,行业应用Deepseek时,可以做到:


快。访问Deepseek无需等待。昇腾大EP可以将单卡并发提升3倍,Decode阶段响应速度稳定在50ms以内,支撑600+并发请求。


省。业务使用Deepseek上量之后,推理集群扩展的同时,性能也保持线性度,扩容综合成本更优。


正如高铁改变了中国人的出行,昇腾大EP为高并发推理铺设了一条“高速铁路”,改变了Deepseek上量扩容阶段的体验,为行业智能化提速增效。



仅用两个多月的时间,Deepseek就完成了从试用阶段到扩容阶段的进阶。高并发推理场景和大EP技术架构,成为应用Deepseek的新挑战。这也提醒我们,行业智能化是一个循序渐进的过程,不可能一蹴而就。


自主创新算力与国产模型如同高铁的双轨,成为支撑起智能中国的“新基建”。昇腾生态之所以与Deepseek等大模型更加适配,答案逐步清晰明确。


首先,昇腾有硬件,为行业智能化提供“永不沉降”的算力路基。昇腾硬件的FP16和INT8算力,可达到H20的2倍以上,且功耗更低,足以支撑各行业智能化的平稳前进。



此外,昇腾有软硬件的协同优化能力。随着行业智能化的不断深入,AI模型对算力需求不断扩张,但硬件的物理天花板和企业的投入产出比,都要求计算性能持续优化。昇腾的AI软硬件,提供从预训练到微调到强化学习,到推理集群、一体机,全流程全覆盖的方案,可以快速响应客户需求,高效支撑技术创新。目前,昇腾与DeepSeek最新技术已经实现了“day0”级别同步,确保企业智能化在昇腾软硬件基座上,始终行驶在技术最前沿。


更重要的是,昇腾有伙伴。行业智能化是一个体系化工程,不是单一硬件或软件厂商就能独自完成的。在自主创新算力生态中,昇腾一方面兼容主流生态与PyTorch等国内外框架,同时与ISV伙伴、各大模厂都保持着紧密共生与合作。这意味着,当行业用户基于昇腾底座开发AI应用,能得到生态的全方位助力,减少智能化升级的阻力,降低综合成本。


今天,智能化已经成为全球经济发展的主航道。在自主算力与国产模型所铸就的双轨上,行业智能化也将走深向远,向着智能时代飞驰。





·
·

·

脑极体 从技术协同到产业革命,从智能密钥到已知尽头
评论 (0)
  • 在现代机械传动系统中,电机与传动轴的连接至关重要。正确的连接方式不仅能提高传动效率,还能延长设备的使用寿命。本文将探讨电机传动轴的几种常见连接方式及其优缺点。1.直接连接直接连接是将电机的输出轴与传动轴直接相连,通常采用联轴器进行连接。这种方式的优点是结构简单,传动效率高,适合于高转速和高精度的应用场合。然而,直接连接对对中精度要求较高,稍有偏差就可能导致振动和磨损。2.齿轮连接齿轮连接通过齿轮传动将电机的动力传递到传动轴。该方式的优点在于能够实现较大的转速变化和扭矩增益,适合于需要大功率和高扭
    博扬智能 2025-03-14 16:32 68浏览
  • 在求职路上,一直没能拿到理想的录用通知,真的要放低要求吗?对很多人来说,这个问题往往让人进退两难。期待中那个能够激发自我潜能又能带来丰厚回报的职位,似乎离自己遥不可及。可是眼看着账单越压越重,生活在缓缓拖累前行。在这种局面下,究竟该不该向现实妥协,先找一份工作再说?有些人会觉得,先就业意味着放弃理想,觉得一旦走上这条路,就难以回到最初的目标。但事实上,这种担忧常常让人陷入犹豫与停滞。路走不通时,不代表必须原地不动。有时选择一份尚可接受的工作,也能带来意想不到的机会。公司内部的人脉、行业的历练,乃
    优思学院 2025-03-14 17:12 71浏览
  • esp32s3使用platformio 点亮1.69寸TFT历程之LVGL移植 继上一篇我历经很久的时间点亮了1.69寸TFT之后。我开始进行LVGL的移植。开始LVGL的学习。用platformio 开发esp32s3真的好方便。按照上一节的环境。本次由于需要使用LVGL。打开platformio lib界面搜索LVGL。目前里面的版本是9.2.2。我使用的8.3.6。然后按照下图加载到自己的工程项目。待加载完毕后。我们会看到libdeps下面会出现LVGL库好了,这一步完成后。我们就开始移植
    zhusx123 2025-03-15 20:58 104浏览
  • 一、问题现象:语音播放异常的典型表现在使用WT588F(E)系列语音芯片的开发过程中,工程师常会遇到以下两类典型异常现象:播放不全:语音仅播放前段内容后突然中断,或特定段落无法触发播放断续:音频输出存在明显卡顿、爆音或波形畸变某智能门锁项目实测数据显示,在首批样机中有2%的设备出现语音提示突然中断的情况,经排查发现电源电压在播放瞬间跌落至2.0V(低于芯片工作阈值)。这类问题的根源往往隐藏于硬件设计与系统协同的细节之中。二、核心机理:电压稳定性对语音芯片的影响2.1 电源系统的动态响应特性WT5
    广州唯创电子 2025-03-17 09:18 114浏览
  • 近日,2025年GTI国际产业大会成功举办,活动上GTI Awards 2025获奖名单正式揭晓,紫光展锐连续三年斩获国际权威机构GTI颁发的大奖。此次,T8300凭借在5G技术创新和娱乐体验方面的卓越表现,荣获GTI“移动技术创新突破奖”(Innovative Breakthrough in Mobile Technology Award)。GTI是由中国移动、软银、沃达丰等运营商于2011年发起成立的国际产业合作平台。GTI Awards作为全球通信行业最具影响力的奖项之一,旨在表彰为行业
    紫光展锐 2025-03-14 17:35 66浏览
  • 工艺工程师(Process Engineer)在工业生产中扮演着重要的角色,负责设计、优化和管理各种工业流程。这些流程通常涉及化学、物理或生物转化,旨在将原材料和能源转化为有用的产品。以下是关于工艺工程师角色、职责、技能和行业应用的详细分析,旨在为读者提供全面的理解。定义与范围根据 Wikipedia 的定义,工艺工程(Process Engineering)是理解和应用自然基本原理和定律,将原材料和能源在工业层面转化为有用产品的过程。它涵盖了化学、物理和生物流程的设计、操作
    优思学院 2025-03-14 12:26 52浏览
  • 一、引言:语音芯片的智能化浪潮在万物互联的智能化时代,语音交互技术已成为人机交互的重要纽带。从智能家电的提示音到儿童玩具的趣味互动,从工业设备的语音告警到公共服务设施的自动播报,语音播放芯片IC作为核心硬件支撑,正在重塑各行各业的用户体验。在众多解决方案中,WTN6、WT588、WT2003H、WTV四大系列产品,凭借差异化的技术特性构建了完整的语音芯片产品矩阵。本文将深度解析这四大主流芯片的技术特点与应用场景,为开发者提供选型参考。二、主流语音芯片技术特性全解析2.1 WTN6系列:高性价比的
    广州唯创电子 2025-03-17 09:04 131浏览
  • 在安防监控领域,图像信号处理芯片的性能直接决定了摄像机的成像质量与应用效果。今天,为大家重磅介绍一款专为专业安防摄像机精心打造的图像信号处理芯片——XS5037C,它以全方位的卓越性能与显著优势,成为安防监控领域的得力之选,尤其是其出色的低功耗特性,更为产品增色不少。低功耗设计 节能典范在能耗方面,XS5037C 展现出了卓越的优势。其内核电压仅为 1.1V,普通 IO 电压设定为 3.3V,PSRAM IO 和 PSRAM 电压为 1.8V,Sensor DVP IO 电压同样为 1.8V,D
    芯片徐15652902508 2025-03-14 09:49 45浏览
  • 失效模式与影响分析(FMEA)失效模式与影响分析(FMEA)是一种系统方法,用于识别和分析系统或过程中的潜在失效,广泛应用于工程和制造领域,以提高产品可靠性和安全性。最新标准由 2019 年发布的 AIAG-VDA FMEA 手册(第一版) 定义,该手册结合了美国和欧洲汽车行业的最佳实践,并引入了 七步法,确保分析全面且结构化。图:优思学院六西格玛新版 FMEA 失效分析的七个步骤1. 规划与准备确定 FMEA 研究的 范围、边界和目标。组建跨职能团队(设
    优思学院 2025-03-17 14:43 78浏览
  •        在工业物联网的世界里,设备之间的“语言不通”曾让无数工厂陷入效率泥潭。想象一个汽车制造车间:1980年代的老式PLC控制器用Modbus RTU协议“说话”,2020年的智能机械臂支持OPC UA协议,而散布在角落的电表和传感器则操着DLT645等不同“方言”。这种协议碎片化让数据互通成为奢望,直到广和通4G模块化身“工业翻译官”,用多协议兼容和边缘计算能力打破僵局。一、从“铁皮盒子”到“边缘大脑”的技术蜕变    &nb
    中科领创 2025-03-14 14:14 51浏览
  • 文/Leon编辑/cc孙聪颖‍蛇年春晚最有意思的节目,一定非机器人跳舞莫属。就算是遥控或预编程,机器人能够做出如此复杂的动作,在五年前都是不敢想象的事情,其制造商宇树科技也因此火爆全网。就在春节过后不到一个月,会骑自行车的人形机器人诞生了。这背后,是近年来“具身智能”概念的迅猛发展。“我们造了一个跟人一样灵动的机器人!”3月11日,智元机器人联合创始人兼首席技术官彭志辉在微博上说道。在视频中,灵犀X2会骑自行车、能跳《科目三》,还可以与人促膝长谈,甚至拿起葡萄“穿针引线”。在全球人形机器人领域,
    华尔街科技眼 2025-03-17 12:38 90浏览
  • 宠物饮水机是专为宠物设计的自动供水设备,它能够持续提供新鲜流动的水,刺激宠物饮水欲望,保持宠物健康。智能水位监测功能可确保宠物始终有水可饮,同时避免溢水和干烧,是现代宠物家庭的理想选择。那么,宠物饮水机水箱是如何实现低水位提醒功能的呢?ICMAN液位检测芯片轻松实现宠物饮水机的水箱低液位提醒功能!工作原理 :基于双通道电容式单点液位检测原理方案特点:液位检测精度高达±1mm,超强抗干扰,动态CS 10V 为家用电器水位提醒的应用提供了一种简单而又有效的实现方式<iframe height=
    ICMAN 2025-03-14 16:46 76浏览
  • 随着智能家居的普及,扫地机器人、擦窗机器人、洗地机等清洁设备正从“功能型”向“智能交互型”跃迁。用户不仅需要高效的清洁能力,更期待直观的语音提示、多传感器协同以及稳定可靠的性能。WTV380-8S语音芯片凭借SOP8超小封装(5mm×6mm)、380秒语音容量、强大扩展性及超高性价比,成为清洁设备语音交互与智能控制的核心解决方案,助力厂商打造差异化产品。一、微型封装,极致节省PCB空间WTV380-8S采用SOP8封装设计(5mm×6mm),体积小巧,可无缝嵌入清洁设备紧凑的电路板中,为电池、电
    广州唯创电子 2025-03-14 09:14 49浏览
  • 万物互联时代,全屋智能正从概念走向现实,而蓝牙低功耗(BLE)技术凭借独特优势,已成为构建智慧家庭生态的核心驱动力之一。作为一项成熟且持续创新的无线通信协议,BLE技术不仅以“低功耗”定义行业标准,更凭借Mesh组网能力打破场景疆界,为智能家居设备提供了灵活、可靠、可扩展的解决方案,有力推动了全屋智能的落地应用。据中商产业研究院整理数据显示,2023年我国智能家居市场规模为7257亿元,预计到2024年将达7848亿元,到2025年将达到8526亿元,同比增长率约为10%。随着未来新房建设和老房
    华普微HOPERF 2025-03-14 17:08 60浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦