AIPerf:大规模人工智能算力基准测试程序

智能计算芯世界 2022-09-22 00:00

随着我国近几年人工智能新基建与大规模计算系统的逐步落地,为了使大规模人工智能计算系统健康持续发展,需要一个能够有效地评价计算系统的人工智能算力的评价指标,而现有的测试方法无法满足这一需求。本文来自“AIPerf:大规模人工智能算力基准测试程序”。

目前,已有一些大规模计算系统的评测程序,例如Linpack是一个目前被广泛使用的高性能计算机双精度浮点运算性能基准评测程序,国际超算Top500榜单依据Linpack值来进行排名。

然而典型的人工智能应用并不需要双精度浮点数运算,大部分人工智能训练任务以单精度浮点数 或16 位浮点数为主,推 理以Int8为主。各大企业、高校和相关组织也相继开发了各类人工智能算力基准评测程序,如MLPerf、Mobile AI Bench、DeepBench、AIIA DNN Benchmark,以及在双精度的Linpack基础上改成混合精度的HPL-AI等基准评测程序,但是这些程序并不适用于大规模和可变规模人工智能计算系统的评测。

为了填补大规模计算系统人工智能算力评测这一领域的空白,清华大学与鹏城实验室联合研制并开发了人 工智能算力基准测试程序——AIPerf Benchmark(以下简称AIPerf)。

AIPerf基于微软NNI(neural network intelligence)开源框架实现,以自动化机器学习(AutoML)为负载,使用网络态射(network morphism)网络结构搜索和树状结构Parzen估计(tree-structured Parzen estimator,TPE)方法超参搜索来寻找精度更高的神经网络结构和(或)超参数。用户可以通过配置文件指定AutoML的相关参数,如训练使用的批大小(batch size)、最大epoch数、学习率、最大搜索模型总个数、最长搜索总时间、最大同时搜索模型个数(并发数)等多个参数。

AIPerf的设计达到了以下4个关键的设计目标。

(1)一个统一的分数:

AIPerf能够报告一个分数,该分数可以作为被评测计算集群系统的评价指标。AIPerf目前的评价指标是Tops,即平均每秒处理的混合精度AI浮点操作数。使用一个而不是多个分数能方便进行不同机器的横向比较,且方便公众宣传。

(2)可变的问题规模:

人工智能计算集群往往有不同的系统规模,差异性体现在节点数量、加速器数量、加速器类型、内存大小等指标上。因此,为了适应各种规模的高性能计算集群,AIPerf能够使用AutoML调整问题规模来适应集群规模的变化,从而充分利用人工智能计算集群的计算资源来体现其算力。

(3)具有实际的人工智能意义:

具有人工智能意义的计算(如神经网络运算)是 人 工智能 基 准 测试 程 序相较于传统高性能计算机基准测试程序的重要区别,也是 其能 够检测集 群人 工智能算力的 核心所在。目前,A I Perf 通 过 在ImageNet数据集上训练神经网络来运行 计 算 机 视 觉 应 用程 序;将 来,计 划 将自然语言处理等其他人工智能任务加入AIPerf的评测范围。

(4)包含必要的多机通信:

网络通信是人工智能计算集群设计的主要指标之一,也是其庞大计算能力的重要组成部分。作为面向高性能计算集群的人工智能基准测试程序,AIPerf包括必要的多机通信(如任务的分发、结果的收集与多机训练),从而将网络通信性能作为最终性能的影响因素之一。

在第二届中国超级算力大会(ChinaSC2020)上,基于AIPerf大规模人工智能算力基准评测程序的国际人工智能性能算力排行榜首次发布。鹏城实验室研制的基于ARM架构和华为加速处理器的鹏城云脑二主机以194 527 Tops的AIPerf算力荣登榜首,其性能是排名第二的联泰集群NVIDIA系统性能的12倍以上。

AIPerf基准评测程序还处于积极的开发和完善阶段,目前AIPerf正在应用负载、硬件适应性以及国际推广等方面大力推进。

AIPerf目前只支持面向计算机视觉的人工智能应用程序。为了更好地评估大规模智能系统在各个典型应用领域的性能,研究团队计划之后支持更多种网络搜索与训练算法以及评测数据集,同时支持更多类型的人工智能计算集群系统;此外,将积极推动AIPerf在国际上的影响力,将其打造成有国际影响力和公信力的大规模人工智能系统基准评测程序。

实际上,AI是HPC技术发展的一个衍生领域,  在HPC行业,TOP500排名基于Linpack BenchMark性能(最新版HPL 2.0规范从2008年一直用到现在),不过随着时间的推移,应用程序对更复杂计算的需求已变得原来越普遍,TOP500创始人之一的田纳西大学教授Jack Dongarra认为Linpack性能已经过时,大家也意识到单看CPU性能的弊端,开始使用HPCG(The High Performance Conjugate Gradients)性能来全面衡量超算性能。

HPCG使用更复杂的微分方程计算方式。Linpack衡量的是线性方程计算的速度和效率,无法测量这些更加复杂的计算程序。由于越来越多的应用程序采用微分方程计算方式,所以每一轮全球超级计算机500强排行榜的Linpack性能数据与真实的数据之间的差距将越来越大。

简单来说,Linpack更考验超算的处理器理论性能,而HPCG更看重实际性能,对内存系统、网络延迟要求也更高,所以任何HPC超算测出来的HPCG性能要比Linpack性能低得多,基本报中告有个HPCG/HPL比率可衡量计算效率,大部分超算的比例都在5%以内,1-3%的比比皆是。

上图展现的是常见的HPC应用基准测试实例,除了HPCG外,主要包括GTC-P 、Meraculous、MILC、MiniDFT 、MiniPIC和PENNANT等。

GTC-P(Gyrokinetic Toroidal Code)通过使用粒子单元算法求解Vlassov-Poisson方程来模拟离子通过托卡马克的运动。在每个PIC(particle-in-cell)时间步长期间,粒子的电荷分布被内插到网格上,泊松方程在网格上求解,电场从网格内插到粒子,并且根据电场更新粒子的相空间坐标。

Meraculous是一种大规模并行基因组组装基准,构造并遍历存在于冗余短序列输入数据集中的长度为k(k-mers)的所有重叠子串的de Bruijn图。通过遍历de Bruijn图,并发现所有(可能断开的)线性子图,Meraculous能够构建基因组数据的高质量连续序列。

MILC基准代码表示由用于研究量子色力学(Quantum Chromodynamics)的MIMD晶格计算(MILC)协作的一组代码,属于亚原子物理学强相互作用的理论,通过并联机器进行四维格子规格理论的仿真。属于物理研究和模拟场景下的基准。

MiniDFT是用于建模材料的平面波密度泛函理论(Density Functional Theory)的模拟应用程序。MiniDFT使用LDA或PBE交换相关函数计算Kohn-Sham方程的自相一致解。对于自相一致的场循环的每次迭代,构建Fock矩阵,然后对角化。为了构建Fock矩阵,使用快速傅立叶变换将平面波基(其中最容易计算的动能)转换为实际空间(其中电位被评估)和返回的轨道。

MiniPIC是解决具有反射壁的任意域中的静电场中的离散Boltzman方程。MiniPIC基准测试使用非结构化的基于hex或tet的网格以及用于粒子网格的静态分区。粒子被跟踪到每个单元格交叉区,打包后并使用MPI传递到相邻的处理器。主要代码库使用了Trilinos数学库中的Tpetra对象进行矩阵/向量操作。

PENNANT是一款用于高级架构研究的应用程序。它具有用于操纵包含任意多边形的二维非结构化有限元网格的数据结构。PENNANT使用几何域分解支持MPI并行性,对使用MPI调用的处理器上实现的点数据进行采集和散射操作,还支持使用OpenMP或CUDA的线程并行。

SNAP作为代理应用程序来建模现代离散坐标中性粒子传输应用程序的性能。SNAP被认为是Sweep3D的更新,旨在用于混合计算架构。它是由洛斯阿拉莫斯国家实验室代码PARTISN建模的。

UMT是建立在多个核分布式存储,多节点并行计算机系统上,执行三维非结构化空间网格上的时间依赖性,能量依赖性,离散坐标和非线性辐射问题的解决方案。为了实现极大的可扩展性,应用程序利用节点之间的消息传递和在节点内角度的线程算法进行空间分解。

下面我们介绍下微观基准,微观基准则更具普适性,经常在项目中客户RFP中出现,更加偏向于纯粹的工具性能测试

Crossroads/N9 DGEMM基准测试是一种简单,多线程,密集矩阵乘法测试。该代码旨在测量单个节点的持续浮点计算速率。

IOR是最常见的BenchMark基准,旨在测量POSIX和MPI-IO级别的并行I/O性能。

Mdtest是一个MPI协调的元数据基准测试,可以对文件和目录执行文件操作,基于不同操作报告性能。

STREAM 基准用来测试持续的计算内存带宽。Crossroads/N9内存带宽基准测试是John D. McCalpin最初编写的STREAM基准测试版本的升级版。

至此我们对TOP500、HPCG、Graph500Green Graph 500业界知名HPC系统排行榜,以及IOR、Mdtest和STREAM等HPC场景中的基准测试方法有了比较全面了解。


下载链接:
AIPerf:大规模人工智能算力基准测试程序
高性能计算:行业发展趋势分析1、被忽视的国之重器:高性能计算那些事儿 
2、高性能计算:不断取得新进展,国产替代未来可期
芯片半导体技术1、全面拆解存储行业,前瞻供求关系与景气.pdf 
2、半导体大硅片国产替代序幕已开启.pdf 
3、半导体国产替代系列十.pdf
3、国内 CMP 抛光液龙头,深度受益国产替代.pdf
4、专题报告:汽车半导体研究框架
存储半导体行业分析汇总1、美光出货全球首款 176 层 NAND,实现闪存性能和密度的重大突破.pdf 
2、中国存储器芯片行业概览.pdf 
3、3D NAND 产业格局及长江存储国产设备.pdf 
4、3D NAND 国产替代深度报告.pdf
5、Nor Flash 景气攀升.pdf
6、兆易创新存储器研究报告
基于人工智能及芯片的技术合集
《基于芯片核心技术合集》1、芯片敏捷开发实践:标签化RISC-V.pdf
2、ARM64服务器内核生态使能-历史与现状.pdf 
3、OS & Compiler Supporting for RISC-V.pdf 
4、基于异构系统的内存管理技术.pdf 
5、类脑智能开放平台.pdf 
6、面向智能物联网应用的低功耗机器学习技术.pdf 
7、神龙:一种新型的软硬融合虚拟化技术.pdf
基于GPU统一内存优化的图计算框架设计
GPU技术专题下载链接
深度报告:GPU研究框架
半导体材料系列报告(上): 国产替代正当时,把握扩产窗口期
半导体材料系列报告(下):Chiplet引领封测行业新机遇
图解数据中心基础设施:PCIe总线和NVMe SSD测试
PCIe Gen 4&5总线协议分析和SSD测试工具白皮书
异构芯片研究框架合集
《国产操作系统专题(3)》
《国产操作系统专题(2)》
《国产操作系统专题(1)》
《信创专题合集》
1、信创专题(二).pdf
2、信创专题(一).pdf
操作系统产业完全解析
机器人操作系统的实践与思考
中兴新支点桌面操作系统用户手册

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。


免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。


电子书<服务器基础知识全解(终极版)>更新完毕。
获取方式:点击“阅读原文”即可查看182页 PPT可编辑版本和PDF阅读版本详情。

温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。
智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • HDMI 2.2 规格将至,开启视听新境界2025年1月6日,HDMI Forum, Inc. 宣布即将发布HDMI规范2.2版本。新HDMI规范为规模庞大的 HDMI 生态系统带来更多选择,为创建、分发和体验理想的终端用户效果提供更先进的解决方案。新技术为电视、电影和游戏工作室等内容制作商在当前和未来提供更高质量的选择,同时实现多种分发平台。96Gbps的更高带宽和新一代 HDMI 固定比率速率传输(Fixed Rate Link)技术为各种设备应用提供更优质的音频和视频。终端用户显示器能以最
    百佳泰测试实验室 2025-01-09 17:33 118浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球中空长航时无人机产值达到9009百万美元,2024-2030年期间年复合增长率CAGR为8.0%。 环洋市场咨询机构出版了的【全球中空长航时无人机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球中空长航时无人机总体规模,包括产量、产值、消费量、主要生产地区、主要生产商及市场份额,同时分析中空长航时无人机市场主要驱动因素、阻碍因素、市场机遇、挑战、新产品发布等。报告从中空长航时
    GIRtina 2025-01-09 10:35 99浏览
  • 职场是人生的重要战场,既是谋生之地,也是实现个人价值的平台。然而,有些思维方式却会悄无声息地拖住你的后腿,让你原地踏步甚至退步。今天,我们就来聊聊职场中最忌讳的五种思维方式,看看自己有没有中招。1. 固步自封的思维在职场中,最可怕的事情莫过于自满于现状,拒绝学习和改变。世界在不断变化,行业的趋势、技术的革新都在要求我们与时俱进。如果你总觉得自己的方法最优,或者害怕尝试新事物,那就很容易被淘汰。与其等待机会找上门,不如主动出击,保持学习和探索的心态。加入优思学院,可以帮助你快速提升自己,与行业前沿
    优思学院 2025-01-09 15:48 102浏览
  • Snyk 是一家为开发人员提供安全平台的公司,致力于协助他们构建安全的应用程序,并为安全团队提供应对数字世界挑战的工具。以下为 Snyk 如何通过 CircleCI 实现其“交付”使命的案例分析。一、Snyk 的挑战随着客户对安全工具需求的不断增长,Snyk 的开发团队面临多重挑战:加速交付的需求:Snyk 的核心目标是为开发者提供更快、更可靠的安全解决方案,但他们的现有 CI/CD 工具(TravisCI)运行缓慢,无法满足快速开发和部署的要求。扩展能力不足:随着团队规模和代码库的不断扩大,S
    艾体宝IT 2025-01-10 15:52 49浏览
  • 在过去十年中,自动驾驶和高级驾驶辅助系统(AD/ADAS)软件与硬件的快速发展对多传感器数据采集的设计需求提出了更高的要求。然而,目前仍缺乏能够高质量集成多传感器数据采集的解决方案。康谋ADTF正是应运而生,它提供了一个广受认可和广泛引用的软件框架,包含模块化的标准化应用程序和工具,旨在为ADAS功能的开发提供一站式体验。一、ADTF的关键之处!无论是奥迪、大众、宝马还是梅赛德斯-奔驰:他们都依赖我们不断发展的ADTF来开发智能驾驶辅助解决方案,直至实现自动驾驶的目标。从新功能的最初构思到批量生
    康谋 2025-01-09 10:04 99浏览
  • 一个真正的质量工程师(QE)必须将一件产品设计的“意图”与系统的可制造性、可服务性以及资源在现实中实现设计和产品的能力结合起来。所以,可以说,这确实是一种工程学科。我们常开玩笑说,质量工程师是工程领域里的「侦探」、「警察」或「律师」,守护神是"墨菲”,信奉的哲学就是「墨菲定律」。(注:墨菲定律是一种启发性原则,常被表述为:任何可能出错的事情最终都会出错。)做质量工程师的,有时会不受欢迎,也会被忽视,甚至可能遭遇主动或被动的阻碍,而一旦出了问题,责任往往就落在质量工程师的头上。虽然质量工程师并不负
    优思学院 2025-01-09 11:48 115浏览
  • 1月9日,在2025国际消费电子展览会(CES)期间,广和通发布集智能语音交互及翻译、4G/5G全球漫游、随身热点、智能娱乐、充电续航等功能于一体的AI Buddy(AI陪伴)产品及解决方案,创新AI智能终端新品类。AI Buddy是一款信用卡尺寸的掌中轻薄智能设备,为用户带来实时翻译、个性化AI语音交互助手、AI影像识别、多模型账户服务、漫游资费服务、快速入网注册等高品质体验。为丰富用户视觉、听觉的智能化体验,AI Buddy通过蓝牙、Wi-Fi可配套OWS耳机、智能眼镜、智能音箱、智能手环遥
    物吾悟小通 2025-01-09 18:21 35浏览
  • 在当前人工智能(AI)与物联网(IoT)的快速发展趋势下,各行各业的数字转型与自动化进程正以惊人的速度持续进行。如今企业在设计与营运技术系统时所面临的挑战不仅是技术本身,更包含硬件设施、第三方软件及配件等复杂的外部因素。然而这些系统往往讲究更精密的设计与高稳定性,哪怕是任何一个小小的问题,都可能对整体业务运作造成严重影响。 POS应用环境与客户需求以本次分享的客户个案为例,该客户是一家全球领先的信息技术服务与数字解决方案提供商,遭遇到一个由他们所开发的POS机(Point of Sal
    百佳泰测试实验室 2025-01-09 17:35 114浏览
  • 车机导航有看没有懂?智能汽车语系在地化不可轻忽!随着智能汽车市场全球化的蓬勃发展,近年来不同国家地区的「Automotive Localization」(汽车在地化)布局成为兵家必争之地,同时也是车厂在各国当地市场非常关键的营销利器。汽车在地化过程中举足轻重的「汽车语系在地化」,则是透过智能汽车产品文字与服务内容的设计订制,以对应不同国家地区用户的使用习惯偏好,除了让当地车主更能清楚理解车辆功能,也能进一步提高品牌满意度。客户问题与难处某车厂客户预计在台湾市场推出新一代车款,却由于车机导航开发人
    百佳泰测试实验室 2025-01-09 17:47 30浏览
  • 在智能网联汽车中,各种通信技术如2G/3G/4G/5G、GNSS(全球导航卫星系统)、V2X(车联网通信)等在行业内被广泛使用。这些技术让汽车能够实现紧急呼叫、在线娱乐、导航等多种功能。EMC测试就是为了确保在复杂电磁环境下,汽车的通信系统仍然可以正常工作,保护驾乘者的安全。参考《QCT-基于LTE-V2X直连通信的车载信息交互系统技术要求及试验方法-1》标准10.5电磁兼容试验方法,下面将会从整车功能层面为大家解读V2X整车电磁兼容试验的过程。测试过程揭秘1. 设备准备为了进行电磁兼容试验,技
    北汇信息 2025-01-09 11:24 103浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦