·聚焦:人工智能、芯片等行业
欢迎各位客官关注、转发
近期,海光信息技术团队已成功实现DeepSeekV3与R1模型与海光DCU(深度计算单元)的国产化适配,并已正式投入使用。
此举标志着海光团队近期完成了第三款DeepSeek大模型的适配优化工作,充分体现了DCU在生态系统和技术能力方面的显著优势。
得益于DCU采用的GPGPU通用加速计算架构,DeepSeek模型能够直接在DCU上运行,无需进行大规模的适配工作。
技术团队的主要任务在于进行模型精度的验证和性能的持续优化。
此次适配优化的DeepSeek-Janus-Pro模型,具备跨模态理解与生成的能力,专注于视觉与语言理解的结合,旨在处理更为复杂的跨模态任务。
海光技术团队的负责人指出,海光DCU在短时间内迅速完成了多款大模型的适配工作,这充分展示了DCU基于GPGPU架构实现的与主流AI生态兼容的重要优势。
同时,这也验证了国产算力基础支撑前沿AI模型的技术能力,为金融、制造等行业的智能化转型提供了自主可控的技术选择。
随着多模态AI应用场景的不断扩展,国产算力基础设施正成为推动产业智能化升级的核心动力。
海光DCU,作为海光信息公司推出的高性能GPGPU架构AI加速卡,旨在为行业客户提供自主可控的全精度通用AI加速计算解决方案。
DeepSeek与海光DCU之间展现出深层次的协同效应
多令牌预测技术通过改善数据处理流程,使得海光DCU能够更高效地运用其计算核心,从而最大化计算资源的利用率。
例如,在自然语言处理任务中,多令牌预测技术使海光DCU能够在单位时间内处理更多的文本数据。
原本耗时较长的文本分析任务,借助该技术能够迅速得出结果,使得海光DCU在此类任务中的性能与英伟达GPU的差距逐渐缩小。
而FP8混合精度训练技术与海光DCU的硬件架构相结合,能够在硬件层面实现更高效的数据传输和计算,减少数据在不同存储层级之间的搬运时间,从而显著提升整体计算效率。
从成本角度审视,这些新技术的应用使得海光DCU在达到相似计算性能的情况下,成本更为低廉。
以大规模深度学习模型训练为例,采用海光DCU配合DeepSeek新技术,在电力消耗和硬件采购成本上,相较于英伟达GPU具有明显优势。
并且,随着技术的持续优化,海光DCU的单位计算成本仍在不断下降。
在效率方面,多令牌预测和FP8混合精度训练技术的结合,大幅缩短了模型训练周期。
过去需要数周时间才能完成训练的大型模型,现在借助这些技术,可能仅需数天即可完成,这对于时间成本极为敏感的科研项目和商业应用而言,具有极大的吸引力。
在新兴的AI应用领域,如边缘计算与物联网融合的智能场景中,对计算设备的能耗、体积以及成本都有着严格的要求。
海光DCU凭借其相对小巧的体积和较低的能耗,结合DeepSeek的强化学习技术,在这些场景中能够发挥独特的优势。
例如,在智能安防摄像头的实时图像分析、工业物联网设备的实时故障诊断等应用场景中,海光DCU能够在本地进行快速的数据处理和决策,无需将大量数据传输至云端。
这不仅降低了数据传输成本,还提高了响应速度,满足了新兴市场对实时性和本地化计算的需求,为其开拓了广阔的市场空间。
起底海光信息GPGPU路线双赛道厂商
海光信息作为国内为数不多同时深耕CPU和DCU(GPGPU路线)双赛道的厂商,海光服务器不仅可以支持当前的通用场景业务,也可以应用在AI场景(如训练、推理),满足当下AI应用场景强烈的需求。
自2014年成立之初,海光信息从一个鲜为人知的初创公司迅速崛起,成为国产高端处理器行业的领军企业。
其市值一度飙升至3340亿元,成为科创板中市值最高的半导体公司之一。
2016年3月及2017年10月,海光微电子与海光集成分别与AMD签订了技术许可协议。
得益于AMD的授权,海光信息的发展步伐显著加快,2018年第二季度,海光CPU正式推向市场。
2019年6月,海光信息被列入美国《出口管制条例》的[实体清单],此后AMD停止了相关技术服务的提供。
面对挑战,海光信息依靠自身力量完成了后续产品和技术的迭代开发。
2023年9月20日,在接受调研时,海光信息宣布,海光DCU深算二号已正式发布并投入商用,该产品在大数据处理、AI、商业计算等领域实现了商业应用。
深算二号具备全精度浮点数据和多种常见整型数据的计算能力,性能相较于深算一号实现了成倍增长。同时,深算三号的研发工作进展顺利。
2023年10月31日,国产高端处理器再次升级,海光四号新品发布,该产品首次采用自主研发的CPU微架构,有助于加速核心器件的国产化进程。
2023年度,海光信息公司旗下高端处理器(涵盖中央处理器CPU及数据计算单元DCU)业务板块实现营业收入达60.12亿元。
公司依托于不断的产品迭代与技术升级,例如推出海光三号CPU和深算二号DCU等新产品,有效地促进了营业收入与利润的同步增长。
至2024年上半年,公司营业收入达到37.63亿元,同比增长率达到44.08%。
这一增长主要得益于公司持续投入高强度的研发资源,技术创新与产品迭代的成效显著,以及市场份额的进一步拓展。
海光DCU系列产品优势及合作应用
DCU(DeepComputingUnit,深度计算单元)是海光信息在[深算智能]战略下推出的高性能GPGPU架构AI加速卡,致力于为行业客户提供自主可控的全精度通用AI加速计算解决方案。
海光DCU基于GPGPU架构,专为高性能计算(HPC)和AI训练/推理进行了优化,支持FP32、FP16、INT8等多种混合精度计算,并与CUDA生态兼容(通过HIP接口转换),从而降低了用户迁移的成本。
官方声称,其DCU系列产品(例如DCU-Z100)的理论计算性能接近NVIDIAA100的80%-90%,但在实际应用中,仍需对软件栈进行优化以充分发挥硬件的潜力。
中科金财与海光信息达成战略合作,联合推出了创新的软硬一体解决方案,深度适配DeepSeek模型。
中科金财通过自研的多场景多基座大模型引擎,与海光的DCU系列加速卡相结合,创建了一个高效、安全、低成本的AI技术底座。
这一解决方案在金融领域的应用中,展现出了强大的优势。
例如,在智能投顾业务中,能够快速分析市场数据,为投资者提供精准的投资建议;
在风险评估方面,利用DeepSeek模型的强大分析能力,结合海光DCU的高效计算性能,能够更准确地评估风险,为金融机构的稳健运营提供有力支持。
澎峰科技自主研发的PerfXLM+推理框架成功实现了对海光DCU的深度适配与优化。
这一成果使得底层架构能够充分发挥海光DCU的强大算力,在处理DeepSeek-R1-Distill系列等模型时,不仅减少了资源消耗,还显著提升了推理效率。
青云科技旗下的[基石智算CoresHub]正式上线包括671B满血版在内的DeepSeek系列模型,通过基石智算提供DeepSeek云端模型服务的同时,还为企业提供DeepSeek私有化部署服务。
结尾:算力基础设施供应商纷纷适配
近期,中国联通宣布,联通云已基于[星罗]平台实现了国产及主流算力适配多规格DeepSeek-R1模型,兼容私有化和公有化场景,实现多产品场景调用,并可在全国270+骨干云池预部署,全面接入联通云桌面、编程助手等多产品场景。
同时,据华为计算官方公众号最新消息,DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro已正式上线昇腾社区,支持一键获取DeepSeek系列模型,支持昇腾硬件平台上即开即用,快速部署推理。
此外,京东云也已正式上线DeepSeek-R1和DeepSeek-V3模型,支持公有云在线部署、专混私有化实例部署两种模式。
此前,百度智能云宣布,百度智能云千帆平台已正式上架DeepSeek-R1和DeepSeek-V3模型,推出了超低价格方案,并提供限时免费服务,用户可登录百度智能云千帆ModelBuilder快速体验。
阿里云也宣布,阿里云PAIModelGallery支持云上一键部署DeepSeek-V3、DeepSeek-R1。
在该平台上,用户可以零代码实现从训练到部署再到推理的全过程,简化模型开发流程,为开发者和企业用户带来了更快、更高效、更便捷的AI开发和应用体验。
腾讯云宣布在高性能应用服务HAI(腾讯云高性能应用服务)上支持一键部署DeepSeek-R1模型。
开发者可以在3分钟内完成模型的启动和配置,无需手动处理复杂的安装和调优过程。
360数字安全集团宣布其安全大模型正式接入DeepSeek,将以DeepSeek为安全大模型基座,发挥360安全大数据优势,通过继续强化学习等技术手段,训练出[DeepSeek版]安全大模型,让安全真正做到[自动驾驶]。
部分资料参考:经济观察报:《DeepSeek激活AI产业链大批公司春节加班适配》,21世纪经济报道:《DeepSeek,再传重磅》,创信世界:《DeepSeekV3与R1模型海光DCU国产化适配并上线》,财联社:《DeepSeek[朋友圈]再扩容:华为、京东相继加入》,与非网eefocus:《从DeepSeek适配潮看中国芯突围:生态反击》,信创纵横:《x86技术路线下,谁是国产服务器之光?》,博双股基社:《国产算力领头羊,CPU+DCU双轮驱动》
本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。
推荐阅读:
商务合作请加微信勾搭:
18948782064
请务必注明:
「姓名 + 公司 + 合作需求」