国产突破!芯片设计核心调度器实现完全自主自研!

EETOP 2023-08-25 11:53

这是一篇推荐我们速石自研调度器——Fsched的文章。

看起来在专门写调度器,但又不完全在写。
往下看,你就懂了。

本篇一共五个章节:

一、介绍一下主角——速石自研调度器Fsched

二、只要有个调度器,就够了吗?

三、全面对比:速石研发平台 VS LSF Suite

四、如果你想尝试AI——

五、不止半导体领域。。。。



介绍一下主角

速石自研调度器Fsched


fastone Scheduler,简称Fsched,是速石科技所有产品的核心调度组件。Ta是面向HPC集群的操作系统,是HPC集群的“大脑”,用于对HPC集群内的计算资源进行管理、监控,对用户提交的任务进行统一管理、分发和远程执行。

Fsched是速石科技基于开源的Slurm版本进化而来的全新产品。

01

我们的Fsched调度器到底厉害在哪?


先看一组我们在半导体领域用户的真实验证数据

5个月时间内:

CPU调度峰值达到5万核

提交了超过8000万Jobs

构建超过700台机器组成的大规模集群;

使用量约3000万核时

Fsched性能指标

吞吐量:

1000 jobs/second

响应时间:

1 ms

集群规模:

单个Fsched集群能够支持的最大节点数:1000

单个Fsched集群能够支持的最大CPU核数:30000


总结一下,Fsched调度器优势:

1. 完全由速石独立开发,性能卓越;

2. 我们能提供代码级技术支持;

3. 支持市面上几乎所有EDA工具;

4. 服务了100+家不同类型的半导体行业用户;

5. 兼容LSF/SGE等调度器,使用体验不变。


关于调度器科普和不同流派近二十年的发展历程,可以点击回顾:亿万打工人的梦:16万个CPU随你用

02

代码级技术支持有什么不一样?


代码级技术支持的特别之处主要体现在解决问题的路径上

一句话,我们能做很多人做不到的事情。


一般问题:我们站在产品视角来解决


特殊问题:我们以开发者身份来解决

比如一些特殊调度策略的改造与优化,我们是开发者,所以能做。包括各种调度器日志的监控分析,优化调度器的提交方式和脚本等等。


DEBUG:深入代码级的技术支持

举一个典型例子:当研发提交任务出现异常状态,怎么办?


我们首先需要定位与任务相关的日志。日志分为:基础设施层日志、中间件层日志、应用层日志等。
IT和研发工程师的关注点不一样:IT工程师一般看基础设施层日志,CAD和研发工程师看中间件层日志和应用层日志。不同角色各看各的,定位问题效率低。
我们通过Fsched调度器:
1. 把调度任务的异常日志分类,找出是哪一层的问题;

2. 任务状态跟踪,通过异常应用找出相应进程和IO信息,方便判断;

3. 通过数据分析抓取日志中的关键信息。

找到问题,over。

03

Slurm之上,我们还做了什么?


Slurm是厉害的:全球60%的TOP500超算中心和超大规模集群(包括我国的天河二号等)都采用Slurm作为调度系统。它拥有容错率高、支持异构资源、高度可扩展等优点,适用性相当强。


那么,基于Slurm之上,我们还做了些什么?


从0到1,帮助用户更快,更简单地用起来

1. 产品级IT自动化管理,标准化地调用资源,保证环境一致性,降低用户配置复杂度和出错率,上手更容易;

2. 从业务出发,Fsched与底层资源的联动性强,根据任务需求自动伸缩,更符合云上使用方式。
从1到10,让用户用得稳定,用得放心
1. 对Slurm开源版进行修复与增强修复Slurm开源版在复杂环境下任务异常崩溃等问题,增加了混合云智能调度能力;
2. 基于Wrapper组件,Fsched对上层EDA应用进行了兼容与优化,保证用户使用体验不变;

PS:同样是Wrapper,水平也是有高下的。要达到多年战斗在一线的专业高级口译的经验和水平,只能说:有难度。

3. 根据最佳实践经验总结的流程与规则,能优化EDA Workflow,提高调度器使用效率;

4. 代码级支持能力让用户无后顾之忧。


只要有个调度器

就够了吗?


答案自然是否定的。

为什么?

或许,我们可以换个角度来回答这个问题。


就像汽车出现之前,用户的期望永远是——1匹更快的马一样

在当下芯片设计研发领域,我们如果把调度器类比马,那么汽车是什么呢?


我们给大家简单描绘一下:

一个站在整个芯片设计研发体系和架构视角来满足EDA行业用户性能、功能、体验的产品。

1. Ta是完整的一体化产品,功能紧密耦合,且经过层层实战考验;

2. Ta解决的是完整生命周期的芯片设计业务问题,调度器只是其中一个模块;

3. Ta具有对企业未来发展的弹性,能扩展至不同规模和更多业务路线,比如AI

而这,正是我们与其他很多产品最大的区别之一


我们的产品在设计之初就是面向EDA应用,服务芯片设计研发业务场景的。这也决定了我们解决问题的出发点永远是:是否满足研发业务需求,然后从上至下地解决问题。


01

一整套上中下层联动的芯片研发环境

我们提供的是一整套上中下层联动的芯片设计研发环境:

1. 连接上层EDA应用,对应用本身的运行提供支持和优化;

2. 连接底层资源,给用户提供更灵活,更高效使用资源的能力;

3. 结合EDA应用和底层资源的联动和适配,给出最佳实践经验。


02

功能面向实际业务场景设计和提供


我们的功能都是面向实际业务场景设计和提供的:

1. License调度优化,可帮助企业用户最大化提升License利用率,更好地规划License购买策略,控制整体使用成本;

2. 我们能多维度监控任务状态,提供基于EDA任务层的监控、告警、数据统计分析功能与服务,让团队管理者监控各个重要指标变化,从全局角度掌握项目的整体任务及资源情况,为未来项目合理规划、集群生命周期管理、成本优化提供支持;

3. 日常数据统计与运营分析管理,实现问题可追溯,可追踪,降低成本,提升整体项目管理效率。


03

交互方式不改变EDA用户使用习惯


我们的交互方式不改变EDA用户的使用习惯。原来怎么用,现在还怎么用。



速石研发平台

VS

LSF Suite


半导体行业用户最熟悉的调度器是LSF,就不多介绍了。

不过,它背后的LSF Suite大家就不一定熟悉了。


来来,我们盘一下,我们速石研发平台跟LSF Suite的区别是什么?

01

根本区别:设计理念不一样


我们是站在整个芯片设计研发体系和架构视角来设计的一体化产品解决的是完整生命周期的芯片设计业务问题,功能紧密耦合,且经过层层实战考验。

Fsched调度器只是其中一个模块,不单独售卖,在我们的全线企业级产品均属内置,且与产品其他功能深度绑定

这正是我们上一节提到的面向EDA业务的产品定位决定的。
而LSF Suite里的核心调度器LSF与其他组件是不关联的,属于可选项。这也导致了用户大多只接触过LSF,而对它的其他组件没有什么概念。

而且,因为各种功能组件之间独立存在的,用户使用的时候需要根据自己业务需要进行二次开发组装,从零开始进行功能模块需求评估、采购、对接、开发和测试验证兼容性,才能搭建出一个完整的研发环境,时间周期也会比较长
另外还有期间的运维、后续的更新升级和功能扩展等事项。

02

性价比:速石研发平台TCO更低


下图是我们研发平台与LSF Suite的横向对比图,可以清楚地看到,两者的收费模式差别很大。

我们Fsched调度器是包含在平台费用里的,相关组件也都是随产品一起内置的,不单独收费。


而LSF Suite除了核心调度器按使用核数收费以外,所有功能组件都需要额外收费


从总拥有成本来看,对用户来说,速石研发平台付出的成本更低,获得的东西更多。还有很多隐性成本没有列在表格里,比如对接调试时间成本,人工成本,售后支持成本等等。


总结一下,我们跟LSF Suite的五大主要区别

1. 核心调度器Fsched完全国产自研,有代码级支持能力;
2. 我们的产品设计初衷就是提供面向EDA业务的一整套研发环境,可扩展性强
3. 各功能模块紧密耦合,不单独收费,整体性价比高
4. 我们的CAD能力与经验,能有效提高上中下层整体联动效率;
5. 我们兼容LSF/SGE等调度器,使用体验不变。



如果你想尝试AI——


目前,AI在芯片设计领域的应用主要有两条路线:


路线一:AI+EDA工具

Synopsys、Cadence与Siemens等公司纷纷在其最新工具中使用了AI技术,覆盖先进数字与模拟芯片的设计、验证、测试和制造环节,让开发者在芯片开发的每一个阶段都可以采用借助AI的自主学习能力,提供芯片设计生产力。

当然,越来越多EDA工具也支持借助GPU进行运算加速。


路线二:AI算法模型训练

Google研究人员使用10,000个芯片布局图来训练他们的深度学习模型——PRIME,人工智能生成的芯片的设计时间不到六个小时。

而NVIDIA设计了另一种用于芯片设计的深度学习方法——PrefixRL模型,NVIDIA使用其RL工具设计的电路比人类使用当今EDA工具设计的电路小25%,但性能相似。


路线一需要支持全流程EDA工具的一整套研发环境,以及构建异构资源(CPU+GPU、本地+云上)的调度及管理平台的能力。

路线二需要的支持企业从ML/LLM模型构建、大规模训练到最终部署需求的MLOps模块

我们都有。


另外,我们刚刚发布的一款行业知识库聊天应用Megrez,面向企业客户提供大语言模型的私有化部署能力,允许用户自定义行业知识库,实现领域知识的问答。

Megrez基于芯片设计领域提供的支持



不止半导体领域。。。。


在半导体以外的其他行业,如生命科学、汽车/智能制造,我们也表现不错:


汽车/智能制造

这样跑COMSOL,是不是就可以发Nature了

LS-DYNA求解效率深度测评 │ 六种规模,本地VS云端5种不同硬件配置

怎么把需要45天的突发性Fluent仿真计算缩短到4天之内?

从4天到1.75小时,如何让Bladed仿真效率提升55倍?


生命科学

王者带飞LeDock!开箱即用&一键定位分子库+全流程自动化,3.5小时完成20万分子对接

1分钟告诉你用MOE模拟200000个分子要花多少钱

155个GPU!多云场景下的Amber自由能计算

提速2920倍!用AutoDock Vina对接2800万个分子



关于fastone云平台在各种EDA应用上的表现,可以点击以下应用名称查看:

HSPICE │ OPC │ VCS │ Virtuoso │ Calibre

速石科技芯片设计五部曲,前三部先睹为快:

模拟IC  数字IC  算法仿真


 END -

我们有个IC设计研发云平台
IC设计全生命周期一站式覆盖
调度器Fsched国产化替代、专业IT-CAD服务
100+行业客户落地实践
支持海内外多地协同研发与办公
多层安全框架层层保障

扫码免费试用,送200元体验金,入股不亏~

更多EDA电子书
欢迎扫码关注小F(ID:iamfastone)获取

你也许想了解具体的落地场景:
暴力堆机器之王——Calibre
Auto-Scale这支仙女棒如何大幅提升Virtuoso仿真效率?
揭秘20000个VCS任务背后的“搬桌子”系列故事
大规模OPC上云,5000核并行,效率提升53倍
从30天到17小时,如何让HSPICE仿真效率提升42倍?

芯片设计研发平台:
【案例】95后占半壁江山的浙桂,如何在百家争鸣中快人一步
最强省钱攻略——IC设计公司老板必读
芯片设计五部曲之三 | 战略规划家——算法仿真
【案例】速石X腾讯云X燧原:芯片设计“存算分离”混合云实践
解密一颗芯片设计的全生命周期算力需求
缺人!缺钱!赶时间!初创IC设计公司如何“绝地求生”?

重大事件:
速石科技联合芯华章,推动新一代EDA向云原生迈进
速石科技赋能里恩特,开拓更广阔的芯片设计市场
速石科技应邀出席2023世界人工智能大会,AI研发平台引人瞩目
速石科技与深信服开启战略合作,助力芯片设计自主创新
速石科技成三星Foundry国内首家SAFE™云合作伙伴

EETOP EETOP半导体社区-国内知名的半导体行业媒体、半导体论坛、IC论坛、集成电路论坛、电子工程师博客、工程师BBS。
评论 (0)
  •   陆地装备体系论证与评估综合平台系统解析   北京华盛恒辉陆地装备体系论证与评估综合平台系统是契合现代军事需求而生的专业系统,借助科学化、智能化手段,实现对陆地装备体系的全方位论证与评估,为军事决策和装备发展提供关键支撑。以下从功能、技术、应用及展望展开分析。   应用案例   目前,已有多个陆地装备体系论证与评估综合平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润陆地装备体系论证与评估综合平台。这些成功案例为陆地装备体系论证与评估综合平台的推广和应用提供了有力支持。
    华盛恒辉l58ll334744 2025-04-24 10:53 89浏览
  • 故障现象一辆2016款奔驰C200L车,搭载274 920发动机,累计行驶里程约为13万km。该车组合仪表上的防侧滑故障灯、转向助力故障灯、安全气囊故障灯等偶尔异常点亮,且此时将挡位置于R挡,中控显示屏提示“后视摄像头不可用”,无法显示倒车影像。 故障诊断用故障检测仪检测,发现多个控制单元中均存储有通信类故障代码(图1),其中故障代码“U015587 与仪表盘的通信存在故障。信息缺失”出现的频次较高。 图1 存储的故障代码1而组合仪表中存储有故障代码“U006488 与用户界
    虹科Pico汽车示波器 2025-04-23 11:22 100浏览
  •   无人机结构仿真与部件拆解分析系统平台解析   北京华盛恒辉无人机结构仿真与部件拆解分析系统无人机技术快速发展的当下,结构仿真与部件拆解分析系统平台成为无人机研发测试的核心工具,在优化设计、提升性能、降低成本等方面发挥关键作用。以下从功能、架构、应用、优势及趋势展开解析。   应用案例   目前,已有多个无人机结构仿真与部件拆解分析系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润无人机结构仿真与部件拆解分析系统。这些成功案例为无人机结构仿真与部件拆解分析系统的推广和应用提
    华盛恒辉l58ll334744 2025-04-23 15:00 199浏览
  •   高海拔区域勤务与装备保障调度系统平台解析   北京华盛恒辉高海拔区域勤务与装备保障调度系统平台专为高海拔特殊地理环境打造,致力于攻克装备适应、人员健康保障、物资运输及应急响应等难题。以下从核心功能、技术特点、应用场景及发展趋势展开全面解读。   应用案例   目前,已有多个高海拔区域勤务与装备保障调度系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润高海拔区域勤务与装备保障调度系统。这些成功案例为高海拔区域勤务与装备保障调度系统的推广和应用提供了有力支持。   一、核心
    华盛恒辉l58ll334744 2025-04-24 10:13 85浏览
  • 一、行业背景与市场需求高血压作为全球发病率最高的慢性病之一,其早期监测与管理已成为公共卫生领域的重要课题。世界卫生组织数据显示,全球超13亿人受高血压困扰,且患者群体呈现年轻化趋势。传统血压计因功能单一、数据孤立等缺陷,难以满足现代健康管理的需求。在此背景下,集语音播报、蓝牙传输、电量检测于一体的智能血压计应运而生,通过技术创新实现“测量-分析-管理”全流程智能化,成为慢性病管理的核心终端设备。二、技术架构与核心功能智能血压计以电子血压测量技术为基础,融合物联网、AI算法及语音交互技术,构建起多
    广州唯创电子 2025-04-23 09:06 169浏览
  •   海上训练与保障调度指挥平台系统解析   北京华盛恒辉海上训练与保障调度指挥平台系统是现代海上作战训练的核心枢纽,融合信息技术、GIS、大数据及 AI 等前沿技术,旨在实现海上训练高效组织、作战保障科学决策。以下从架构功能、应用场景、系统优势及发展挑战展开解读。   应用案例   目前,已有多个海上训练与保障调度指挥平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润海上训练与保障调度指挥平台。这些成功案例为海上训练与保障调度指挥平台的推广和应用提供了有力支持。   一
    华盛恒辉l58ll334744 2025-04-24 15:26 63浏览
  •   有效样本分析决策系统平台全面解析   一、引言   北京华盛恒辉有效样本分析决策系统在当今数据驱动的时代,企业、科研机构等面临着海量数据的处理与分析挑战。有效样本分析决策系统平台应运而生,它通过对样本数据的精准分析,为决策提供有力支持,成为提升决策质量和效率的关键工具。   应用案例   目前,已有多个有效样本分析决策系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润有效样本分析决策系统。这些成功案例为有效样本分析决策系统的推广和应用提供了有力支持。   二、平台概述
    华盛恒辉l58ll334744 2025-04-24 11:13 81浏览
  •   航空兵训练与战术对抗仿真平台系统解析   北京华盛恒辉航空兵训练与战术对抗仿真平台系统是现代军事训练的关键工具,借助计算机技术构建虚拟战场,支持多兵种协同作战模拟,为军事决策、训练及装备研发提供科学依据。   应用案例   目前,已有多个航空兵训练与战术对抗仿真平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润航空兵训练与战术对抗仿真平台。这些成功案例为航空兵训练与战术对抗仿真平台的推广和应用提供了有力支持。   一、系统架构与核心功能   系统由模拟器、计算机兵力生
    华盛恒辉l58ll334744 2025-04-24 16:34 73浏览
  • 前言本文主要演示基于TL3576-MiniEVM评估板HDMI OUT、DP 1.4和MIPI的多屏同显、异显方案,适用开发环境如下。Windows开发环境:Windows 7 64bit、Windows 10 64bitLinux开发环境:VMware16.2.5、Ubuntu22.04.5 64bitU-Boot:U-Boot-2017.09Kernel:Linux-6.1.115LinuxSDK:LinuxSDK-[版本号](基于rk3576_linux6.1_release_v
    Tronlong 2025-04-23 13:59 131浏览
  •   电磁频谱数据综合管理平台系统解析   一、系统定义与目标   北京华盛恒辉电磁频谱数据综合管理平台融合无线传感器、软件定义电台等前沿技术,是实现无线电频谱资源全流程管理的复杂系统。其核心目标包括:优化频谱资源配置,满足多元通信需求;运用动态管理与频谱共享技术,提升资源利用效率;强化频谱安全监管,杜绝非法占用与干扰;为电子战提供频谱监测分析支持,辅助作战决策。   应用案例   目前,已有多个电磁频谱数据综合管理平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁频谱数
    华盛恒辉l58ll334744 2025-04-23 16:27 188浏览
  •   后勤实验仿真系统平台深度解析   北京华盛恒辉后勤实验仿真系统平台依托计算机仿真技术,是对后勤保障全流程进行模拟、分析与优化的综合性工具。通过搭建虚拟场景,模拟资源调配、物资运输等环节,为后勤决策提供数据支撑,广泛应用于军事、应急管理等领域。   应用案例   目前,已有多个后勤实验仿真系统平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润后勤实验仿真系统平台。这些成功案例为后勤实验仿真系统平台的推广和应用提供了有力支持。   一、核心功能   (一)后勤资源模拟
    华盛恒辉l58ll334744 2025-04-23 15:39 164浏览
  •   通用装备论证与评估系统平台解析   北京华盛恒辉通用装备论证与评估系统平台是服务军事装备全生命周期管理的综合性信息化平台,通过科学化、系统化手段,实现装备需求论证、效能分析等核心功能,提升装备建设效益。   应用案例   目前,已有多个通用装备论证与评估系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润通用装备论证与评估系统。这些成功案例为通用装备论证与评估系统的推广和应用提供了有力支持。   一、系统分层架构   (一)数据层   整合装备性能、作战、试验等多源异
    华盛恒辉l58ll334744 2025-04-24 16:14 62浏览
  •   陆地边防事件紧急处置系统平台解析   北京华盛恒辉陆地边防事件紧急处置系统平台是整合监测、预警、指挥等功能的智能化综合系统,致力于增强边防安全管控能力,快速响应各类突发事件。以下从系统架构、核心功能、技术支撑、应用场景及发展趋势展开全面解读。   应用案例   目前,已有多个陆地边防事件紧急处置系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润陆地边防事件紧急处置系统。这些成功案例为陆地边防事件紧急处置系统的推广和应用提供了有力支持。   一、系统架构   感知层:部
    华盛恒辉l58ll334744 2025-04-23 11:22 124浏览
  • 一、技术背景与市场机遇在智能家居高速发展的今天,用户对家电设备的安全性、智能化及能效表现提出更高要求。传统取暖器因缺乏智能感知功能,存在能源浪费、安全隐患等痛点。WTL580-C01微波雷达感应模块的诞生,为取暖设备智能化升级提供了创新解决方案。该模块凭借微波雷达技术优势,在精准测距、环境适应、能耗控制等方面实现突破,成为智能取暖器领域的核心技术组件。二、核心技术原理本模块采用多普勒效应微波雷达技术,通过24GHz高频微波信号的发射-接收机制,实现毫米级动作识别和精准测距。当人体进入4-5米有效
    广州唯创电子 2025-04-23 08:41 159浏览
  •   复杂电磁环境模拟系统平台解析   一、系统概述   北京华盛恒辉复杂电磁环境模拟系统平台是用于还原真实战场或特定场景电磁环境的综合性技术平台。该平台借助软硬件协同运作,能够产生多源、多频段、多体制的电磁信号,并融合空间、时间、频谱等参数,构建高逼真度的电磁环境,为电子对抗、通信、雷达等系统的研发、测试、训练及评估工作提供重要支持。   应用案例   目前,已有多个复杂电磁环境模拟系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润复杂电磁环境模拟系统。这些成功案例为复杂电
    华盛恒辉l58ll334744 2025-04-23 10:29 180浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦