深度丨海光DCU与DeepSeek完成国产化适配,生态与技术潜力知多少

原创 AI芯天下 2025-02-12 20:30

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发






前言
过去,实现特定模型性能所需的大量英伟达芯片,如今可以通过国产GPU与DeepSeek以更经济的方式达成。

DeepSeek对产业链的激活效应亦可能波及国内的智算中心。

众多智算中心正审视DeepSeek,并可能因此调整建设方案,提高国产设备的采购比例。根据中国信息通信研究院的数据,截至2024年7月底,国内已纳入监测的智算中心(包括已建成和在建的)数量达到87个。

DeepSeek所提供的高性价比模型有助于国产GPU与国产云服务的融合,形成一套完全由国产技术构成的解决方案。


作者 | 方文三
图片来源 |  网 络 


海光DCU与DeepSeek完成国产化适配


近期,海光信息技术团队已成功实现DeepSeekV3与R1模型与海光DCU(深度计算单元)的国产化适配,并已正式投入使用。


此举标志着海光团队近期完成了第三款DeepSeek大模型的适配优化工作,充分体现了DCU在生态系统和技术能力方面的显著优势。


得益于DCU采用的GPGPU通用加速计算架构,DeepSeek模型能够直接在DCU上运行,无需进行大规模的适配工作。


技术团队的主要任务在于进行模型精度的验证和性能的持续优化。


此次适配优化的DeepSeek-Janus-Pro模型,具备跨模态理解与生成的能力,专注于视觉与语言理解的结合,旨在处理更为复杂的跨模态任务。


海光技术团队的负责人指出,海光DCU在短时间内迅速完成了多款大模型的适配工作,这充分展示了DCU基于GPGPU架构实现的与主流AI生态兼容的重要优势。


同时,这也验证了国产算力基础支撑前沿AI模型的技术能力,为金融、制造等行业的智能化转型提供了自主可控的技术选择。


随着多模态AI应用场景的不断扩展,国产算力基础设施正成为推动产业智能化升级的核心动力。


海光DCU,作为海光信息公司推出的高性能GPGPU架构AI加速卡,旨在为行业客户提供自主可控的全精度通用AI加速计算解决方案。



DeepSeek与海光DCU之间展现出深层次的协同效应


多令牌预测技术通过改善数据处理流程,使得海光DCU能够更高效地运用其计算核心,从而最大化计算资源的利用率。


例如,在自然语言处理任务中,多令牌预测技术使海光DCU能够在单位时间内处理更多的文本数据。


原本耗时较长的文本分析任务,借助该技术能够迅速得出结果,使得海光DCU在此类任务中的性能与英伟达GPU的差距逐渐缩小。


而FP8混合精度训练技术与海光DCU的硬件架构相结合,能够在硬件层面实现更高效的数据传输和计算,减少数据在不同存储层级之间的搬运时间,从而显著提升整体计算效率。


从成本角度审视,这些新技术的应用使得海光DCU在达到相似计算性能的情况下,成本更为低廉。


以大规模深度学习模型训练为例,采用海光DCU配合DeepSeek新技术,在电力消耗和硬件采购成本上,相较于英伟达GPU具有明显优势。


并且,随着技术的持续优化,海光DCU的单位计算成本仍在不断下降。


在效率方面,多令牌预测和FP8混合精度训练技术的结合,大幅缩短了模型训练周期。


过去需要数周时间才能完成训练的大型模型,现在借助这些技术,可能仅需数天即可完成,这对于时间成本极为敏感的科研项目和商业应用而言,具有极大的吸引力。


在新兴的AI应用领域,如边缘计算与物联网融合的智能场景中,对计算设备的能耗、体积以及成本都有着严格的要求。


海光DCU凭借其相对小巧的体积和较低的能耗,结合DeepSeek的强化学习技术,在这些场景中能够发挥独特的优势。


例如,在智能安防摄像头的实时图像分析、工业物联网设备的实时故障诊断等应用场景中,海光DCU能够在本地进行快速的数据处理和决策,无需将大量数据传输至云端。


这不仅降低了数据传输成本,还提高了响应速度,满足了新兴市场对实时性和本地化计算的需求,为其开拓了广阔的市场空间。



起底海光信息GPGPU路线双赛道厂商


海光信息作为国内为数不多同时深耕CPU和DCU(GPGPU路线)双赛道的厂商,海光服务器不仅可以支持当前的通用场景业务,也可以应用在AI场景(如训练、推理),满足当下AI应用场景强烈的需求。


自2014年成立之初,海光信息从一个鲜为人知的初创公司迅速崛起,成为国产高端处理器行业的领军企业。


其市值一度飙升至3340亿元,成为科创板中市值最高的半导体公司之一。


2016年3月及2017年10月,海光微电子与海光集成分别与AMD签订了技术许可协议。


得益于AMD的授权,海光信息的发展步伐显著加快,2018年第二季度,海光CPU正式推向市场。


2019年6月,海光信息被列入美国《出口管制条例》的[实体清单],此后AMD停止了相关技术服务的提供。


面对挑战,海光信息依靠自身力量完成了后续产品和技术的迭代开发。


2023年9月20日,在接受调研时,海光信息宣布,海光DCU深算二号已正式发布并投入商用,该产品在大数据处理、AI、商业计算等领域实现了商业应用。


深算二号具备全精度浮点数据和多种常见整型数据的计算能力,性能相较于深算一号实现了成倍增长。同时,深算三号的研发工作进展顺利。


2023年10月31日,国产高端处理器再次升级,海光四号新品发布,该产品首次采用自主研发的CPU微架构,有助于加速核心器件的国产化进程。


2023年度,海光信息公司旗下高端处理器(涵盖中央处理器CPU及数据计算单元DCU)业务板块实现营业收入达60.12亿元。


公司依托于不断的产品迭代与技术升级,例如推出海光三号CPU和深算二号DCU等新产品,有效地促进了营业收入与利润的同步增长。


至2024年上半年,公司营业收入达到37.63亿元,同比增长率达到44.08%。


这一增长主要得益于公司持续投入高强度的研发资源,技术创新与产品迭代的成效显著,以及市场份额的进一步拓展。



海光DCU系列产品优势及合作应用


DCU(DeepComputingUnit,深度计算单元)是海光信息在[深算智能]战略下推出的高性能GPGPU架构AI加速卡,致力于为行业客户提供自主可控的全精度通用AI加速计算解决方案。


海光DCU基于GPGPU架构,专为高性能计算(HPC)和AI训练/推理进行了优化,支持FP32、FP16、INT8等多种混合精度计算,并与CUDA生态兼容(通过HIP接口转换),从而降低了用户迁移的成本。


官方声称,其DCU系列产品(例如DCU-Z100)的理论计算性能接近NVIDIAA100的80%-90%,但在实际应用中,仍需对软件栈进行优化以充分发挥硬件的潜力。



中科金财与海光信息达成战略合作,联合推出了创新的软硬一体解决方案,深度适配DeepSeek模型。


中科金财通过自研的多场景多基座大模型引擎,与海光的DCU系列加速卡相结合,创建了一个高效、安全、低成本的AI技术底座。


这一解决方案在金融领域的应用中,展现出了强大的优势。


例如,在智能投顾业务中,能够快速分析市场数据,为投资者提供精准的投资建议;


在风险评估方面,利用DeepSeek模型的强大分析能力,结合海光DCU的高效计算性能,能够更准确地评估风险,为金融机构的稳健运营提供有力支持。


澎峰科技自主研发的PerfXLM+推理框架成功实现了对海光DCU的深度适配与优化。


这一成果使得底层架构能够充分发挥海光DCU的强大算力,在处理DeepSeek-R1-Distill系列等模型时,不仅减少了资源消耗,还显著提升了推理效率。


青云科技旗下的[基石智算CoresHub]正式上线包括671B满血版在内的DeepSeek系列模型,通过基石智算提供DeepSeek云端模型服务的同时,还为企业提供DeepSeek私有化部署服务。



结尾:算力基础设施供应商纷纷适配


近期,中国联通宣布,联通云已基于[星罗]平台实现了国产及主流算力适配多规格DeepSeek-R1模型,兼容私有化和公有化场景,实现多产品场景调用,并可在全国270+骨干云池预部署,全面接入联通云桌面、编程助手等多产品场景。


同时,据华为计算官方公众号最新消息,DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro已正式上线昇腾社区,支持一键获取DeepSeek系列模型,支持昇腾硬件平台上即开即用,快速部署推理。


此外,京东云也已正式上线DeepSeek-R1和DeepSeek-V3模型,支持公有云在线部署、专混私有化实例部署两种模式。


此前,百度智能云宣布,百度智能云千帆平台已正式上架DeepSeek-R1和DeepSeek-V3模型,推出了超低价格方案,并提供限时免费服务,用户可登录百度智能云千帆ModelBuilder快速体验。


阿里云也宣布,阿里云PAIModelGallery支持云上一键部署DeepSeek-V3、DeepSeek-R1。


在该平台上,用户可以零代码实现从训练到部署再到推理的全过程,简化模型开发流程,为开发者和企业用户带来了更快、更高效、更便捷的AI开发和应用体验。


腾讯云宣布在高性能应用服务HAI(腾讯云高性能应用服务)上支持一键部署DeepSeek-R1模型。


开发者可以在3分钟内完成模型的启动和配置,无需手动处理复杂的安装和调优过程。


360数字安全集团宣布其安全大模型正式接入DeepSeek,将以DeepSeek为安全大模型基座,发挥360安全大数据优势,通过继续强化学习等技术手段,训练出[DeepSeek版]安全大模型,让安全真正做到[自动驾驶]。


部分资料参考:经济观察报:《DeepSeek激活AI产业链大批公司春节加班适配》,21世纪经济报道:《DeepSeek,再传重磅》,创信世界:《DeepSeekV3与R1模型海光DCU国产化适配并上线》,财联社:《DeepSeek[朋友圈]再扩容:华为、京东相继加入》,与非网eefocus:《从DeepSeek适配潮看中国芯突围:生态反击》,信创纵横:《x86技术路线下,谁是国产服务器之光?》,博双股基社:《国产算力领头羊,CPU+DCU双轮驱动》


本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。



END


推荐阅读:


商务合作请加微信勾搭:
18948782064

请务必注明:

「姓名 + 公司 + 合作需求」


AI芯天下 聚焦人工智能,AI芯片,5G通讯等行业动态
评论 (0)
  • 引言汽车行业正经历一场巨变。随着电动汽车、高级驾驶辅助系统(ADAS)和自动驾驶技术的普及,电子元件面临的要求从未如此严格。在这些复杂系统的核心,存在着一个看似简单却至关重要的元件——精密电阻。贞光科技代理品牌光颉科技的电阻选型过程,特别是在精度要求高达 0.01% 的薄膜和厚膜技术之间的选择,已成为全球汽车工程师的关键决策点。当几毫欧姆的差异可能影响传感器的灵敏度或控制系统的精确性时,选择正确的电阻不仅仅是满足规格的问题——它关系到车辆在极端条件下的安全性、可靠性和性能。在这份全面指南中,我们
    贞光科技 2025-03-12 17:25 136浏览
  • 文/杜杰编辑/cc孙聪颖‍主打影像功能的小米15 Ultra手机,成为2025开年的第一款旗舰机型。从发布节奏上来看,小米历代Ultra机型,几乎都选择在开年发布,远远早于其他厂商秋季主力机型的发布时间。这毫无疑问会掀起“Ultra旗舰大战”,今年影像手机将再次被卷上新高度。无意臆断小米是否有意“领跑”一场“军备竞赛”,但各种复杂的情绪难以掩盖。岁岁年年机不同,但将2-3年内记忆中那些关于旗舰机的发布会拼凑起来,会发现,包括小米在内,旗舰机的革新点,除了摄影参数的不同,似乎没什么明显变化。贵为旗
    华尔街科技眼 2025-03-13 12:30 155浏览
  • 在海洋监测领域,基于无人艇能够实现高效、实时、自动化的海洋数据采集,从而为海洋环境保护、资源开发等提供有力支持。其中,无人艇的控制算法训练往往需要大量高质量的数据支持。然而,海洋数据采集也面临数据噪声和误差、数据融合与协同和复杂海洋环境适应等诸多挑战,制约着无人艇技术的发展。针对这些挑战,我们探索并推出一套基于多传感器融合的海洋数据采集系统,能够高效地采集和处理海洋环境中的多维度数据,为无人艇的自主航行和控制算法训练提供高质量的数据支持。一、方案架构无人艇要在复杂海上环境中实现自主导航,尤其是完
    康谋 2025-03-13 09:53 118浏览
  • 北京时间3月11日,国内领先的二手消费电子产品交易和服务平台万物新生(爱回收)集团(纽交所股票代码:RERE)发布2024财年第四季度和全年业绩报告。财报显示,2024年第四季度万物新生集团总收入48.5亿元,超出业绩指引,同比增长25.2%。单季non-GAAP经营利润1.3亿元(non-GAAP口径,即经调整口径,均不含员工股权激励费用、无形资产摊销及因收购产生的递延成本,下同),并汇报创历史新高的GAAP净利润7742万元,同比增长近27倍。总览全年,万物新生总收入同比增长25.9%达到1
    华尔街科技眼 2025-03-13 12:23 116浏览
  • 本文介绍Android系统主板应用配置默认获取管理所有文件权限方法,基于触觉智能SBC3588行业主板演示,搭载了瑞芯微RK3588芯片,八核处理器,6T高算力NPU;音视频接口、通信接口等各类接口一应俱全,支持安卓Android、Linux、开源鸿蒙OpenHarmony、银河麒麟Kylin等操作系统。配置前提在配置前,建议先将应用配置成系统应用,不然配置后系统每次重启后都会弹窗提示是否获取权限。应用配置成系统应用,可参考以下链接方法:瑞芯微开发板/主板Android系统APK签名文件使用方法
    Industio_触觉智能 2025-03-12 14:34 66浏览
  • 前言在快速迭代的科技浪潮中,汽车电子技术的飞速发展不仅重塑了行业的面貌,也对测试工具提出了更高的挑战与要求。作为汽车电子测试领域的先锋,TPT软件始终致力于为用户提供高效、精准、可靠的测试解决方案。新思科技出品的TPT软件迎来了又一次重大更新,最新版本TPT 2024.12将进一步满足汽车行业日益增长的测试需求,推动汽车电子技术的持续革新。基于当前汽车客户的实际需求与痛点,结合最新的技术趋势,对TPT软件进行了全面的优化与升级。从模型故障注入测试到服务器函数替代C代码函数,从更准确的需求链接到P
    北汇信息 2025-03-13 14:43 115浏览
  • 一、行业背景与需求痛点智能电子指纹锁作为智能家居的核心入口,近年来市场规模持续增长,用户对产品的功能性、安全性和设计紧凑性提出更高要求:极致空间利用率:锁体内部PCB空间有限,需高度集成化设计。语音交互需求:操作引导(如指纹识别状态、低电量提醒)、安全告警(防撬、试错报警)等语音反馈。智能化扩展能力:集成传感器以增强安全性(如温度监测、防撬检测)和用户体验。成本与可靠性平衡:在复杂环境下确保低功耗、高稳定性,同时控制硬件成本。WTV380-P(QFN32)语音芯片凭借4mm×4mm超小封装、多传
    广州唯创电子 2025-03-13 09:24 112浏览
  • 在追求更快、更稳的无线通信路上,传统射频架构深陷带宽-功耗-成本的“不可能三角”:带宽每翻倍,系统复杂度与功耗增幅远超线性增长。传统方案通过“分立式功放+多级变频链路+JESD204B 接口”的组合试图平衡性能与成本,却难以满足实时性严苛的超大规模 MIMO 通信等场景需求。在此背景下,AXW49 射频开发板以“直采+异构”重构射频范式:基于 AMD Zynq UltraScale+™ RFSoC Gen3XCZU49DR 芯片的 16 通道 14 位 2.5GSPS ADC 与 16
    ALINX 2025-03-13 09:27 85浏览
  • DeepSeek自成立之初就散发着大胆创新的气息。明明核心开发团队只有一百多人,却能以惊人的效率实现许多大厂望尘莫及的技术成果,原因不仅在于资金或硬件,而是在于扁平架构携手塑造的蜂窝创新生态。创办人梁文锋多次强调,与其与大厂竞争一时的人才风潮,不如全力培养自家的优质员工,形成不可替代的内部生态。正因这样,他对DeepSeek内部人才体系有着一套别具一格的见解。他十分重视中式教育价值,因而DeepSeek团队几乎清一色都是中国式学霸。许多人来自北大清华,或者在各种数据比赛中多次获奖,可谓百里挑一。
    优思学院 2025-03-13 12:15 123浏览
  • 现代旅游风气盛行,无论国内或国外旅游,导航装置无疑就是最佳的行动导游;在工作使用上也有部分职业(如:外送服务业)需要依靠导航系统的精准,才能将餐点准确无误的送至客户手上。因此手机导航已开始成为现代生活上不可或缺的手机应用之一。「它」是造成产品潜在风险的原因之一外送服务业利用手机导航,通常是使用手机支架固定在机车上,但行进间的机车其环境并不一定适用于安装手机,因行进间所产生的振动可能会影响部分的功能,进而导致受损。您是否曾在新闻报导中看过:有使用者回报在机车上使用手机架导航会造成相机无法开启?苹果
    百佳泰测试实验室 2025-03-13 18:17 125浏览
  • 文/Leon编辑/cc孙聪颖作为全球AI领域的黑马,DeepSeek成功搅乱了中国AI大模型市场的格局。科技大厂们选择合作,接入其模型疯抢用户;而AI独角兽们则陷入两难境地,上演了“Do Or Die”的抉择。其中,有着“大模型六小虎”之称的六家AI独角兽公司(智谱AI、百川智能、月之暗面、MiniMax、阶跃星辰及零一万物),纷纷开始转型:2025年伊始,李开复的零一万物宣布转型,不再追逐超大模型,而是聚焦AI商业化应用;紧接着,消息称百川智能放弃B端金融市场,聚焦AI医疗;月之暗面开始削减K
    华尔街科技眼 2025-03-12 17:37 220浏览
  • 各大Logo更新汇报 | NEW百佳泰为ISO/IEC17025实验室,特为您整理2025年3月各大Logo的最新规格信息。USB™▶ USB Type-C/PD 互操作性MacBook Pro 16英寸(Apple M4 Max 芯片,36GB 内存–1TB SSD–140W USB-C电源适配器)或 MacBook Pro 16英寸(M4 Pro芯片,24GB内存–512 TB SSD–140W USB-C电源适配器),这些型号支持USB4 80Gbps传输速度和 140W EPR功率。需尽
    百佳泰测试实验室 2025-03-13 18:20 122浏览
  • 曾经听过一个“隐形经理”的故事:有家公司,新人进来后,会惊讶地发现老板几乎从不在办公室。可大家依旧各司其职,还能在关键时刻自发协作,把项目完成得滴水不漏。新员工起初以为老板是“放羊式”管理,结果去茶水间和老员工聊过才发现,这位看似“隐形”的管理者其实“无处不在”,他提前铺好了企业文化、制度和激励机制,让一切运行自如。我的观点很简单:管理者的最高境界就是——“无为而治”。也就是说,你的存在感不需要每天都凸显,但你的思路、愿景、机制早已渗透到组织血液里。为什么呢?因为真正高明的管理,不在于事必躬亲,
    优思学院 2025-03-12 18:24 108浏览
  • 2025年,科技浪潮汹涌澎湃的当下,智能数字化变革正进行得如火如荼,从去年二季度开始,触觉智能RK3562核心板上市以来,受到了火爆的关注,上百家客户选用了此方案,也获得了众多的好评与认可,为客户的降本增效提供了广阔的空间。随着原厂的更新,功能也迎来了一波重大的更新,无论是商业级(RK3562)还是工业级(RK3562J),都可支持NPU和2×CAN,不再二选一。我们触觉智能做了一个艰难又大胆的决定,为大家带来两大重磅福利,请继续往下看~福利一:RK3562核心板149元特惠再续,支持2×CAN
    Industio_触觉智能 2025-03-12 14:45 42浏览
  • 一、行业背景与用户需求随着健康消费升级,智能眼部按摩仪逐渐成为缓解眼疲劳、改善睡眠的热门产品。用户对这类设备的需求不再局限于基础按摩功能,而是追求更智能化、人性化的体验,例如:语音交互:实时反馈按摩模式、操作提示、安全提醒。环境感知:通过传感器检测佩戴状态、温度、压力等,提升安全性与舒适度。低功耗长续航:适应便携场景,延长设备使用时间。高性价比方案:在控制成本的同时实现功能多样化。针对这些需求,WTV380-8S语音芯片凭借其高性能、多传感器扩展能力及超高性价比,成为眼部按摩仪智能化升级的理想选
    广州唯创电子 2025-03-13 09:26 98浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦