这是机器学习业界常用的机器学习术语表。

这是机器学习业界常用的机器学习术语表。

准确性

准确性用于评估任何分类模型。它被定义为正确预测总数的百分比。在数学上它表示为:

算法

在机器学习中,算法是应用于数据以创建机器学习模型的过程。例如,线性回归、决策树。

注解

为未标记数据分配标签的过程。例如,在手写数字识别任务中,如果我们将 8 的值分配给 8 的图像。

人工神经网络

人工神经网络是受构成动物脑细胞的生物神经网络启发的机器学习算法。

属性

实例的一个方面。如果我们谈论结构化数据并以表格格式存储值,那么列代表属性。例如,假设我们要估计今天的大气温度,为此,我们记录了大气压力、风速和其他基本属性。这些属性称为属性。

AUC(曲线下面积)

ROC 曲线下的面积表示分类模型在所有分类阈值下的总体性能。ROC曲线表示真阳性率相对于假阳性率的变化。

偏见

偏差通过使我们的模型对任何特征或数据点更不敏感或更敏感来帮助概括结果。由于不正确的 ML 过程假设,偏差被认为是机器学习模型中的系统错误。

偏差误差

由于算法倾向于通过不考虑所有数据信息来持续学习错误事物而导致的错误。

高偏差-对数据做出假设的趋势增加,因此误差增加。

低偏差-对数据做出假设的趋势变小。模型在训练数据上准确学习。

下面的右侧图显示了点分散在圆的中心周围,因此具有较低的偏差。

但右图中存在很大偏差,因为散射只发生在特定方向。

低偏置与高偏置

分类

分类是机器学习中的一个问题陈述,模型试图预测输出类别。可以有两种分类:

二进制分类输入分类为两个二进制类;例如,图像中是否包含猫,Statement as True or False。

多标签分类-对多个类中的对象进行分类。例如,图像同时检测到房子、猫、狗等的存在。

分类阈值

它是做出特定决定的极限值。假设一个机器学习模型以 X% 的保证预测猫在任何图像中的存在。我们已经设定了标准,如果置信度 > 60%,那么这将是一个有效的预测。那么分类的阈值为60。

聚类

一种无监督学习,模型根据一些固有的数据特征将输入数据分组到不同的桶中。通常,集群由具有相似特征的项目组成。最常用的聚类算法是 K-Means、层次聚类和亲和聚类。

混淆矩阵

机器学习分类问题的性能测量指标,其中输出可以是两个或更多类。它将预测分为四类,

True Positive猫的图像被机器学习模型归类为猫的图像。

True Negative输入图像中没有猫,机器学习模型也预测没有猫。

误报:狗的图像被机器学习模型分类为猫的图像。这也称为I 类错误

假阴性:输入图像中有一只猫,但机器学习模型预测没有猫。它们也被称为II 型错误

收敛

训练机器学习模型期间的一种状态,当连续时期之间损失值的变化变小时。更具体地说,如果损失函数的代价变化很小,那么可以说模型找到了最小值,或者说它的位置不会进一步改变,即已经收敛。

深度学习

机器学习的一个子领域,处理基于人工神经网络的算法,并能够理解时间和空间依赖性。它也被称为深度结构化学习。

方面

机器学习中的维度是指已用作机器学习算法输入的特征数量。

退出

一种正则化器,用于在训练神经网络时通过丢弃隐藏或可见单元来防止过度拟合。

时代

1 Epoch = 对整个数据集的 1 次迭代。

外推

超出原始观测范围的一种估计。

误报率 (FPR)

数学上计算如下:

特征

特征被称为属性和值(最终用于训练)。温度是属性,温度 = 25°C 是一个特征。

特征向量

特征向量列出了所有馈送到 ML 模型的特征。

全局最小值

损失函数值在整个损失函数域中全局达到最小值。它是函数在其整个范围内的最小整体值。

隐藏层

神经网络中输入层和输出层之间的层是隐藏层。

超参数

一个参数,其值用于控制学习过程。例如,神经网络中隐藏层的数量。

实例

数据集中的样本行特征值。它也被称为观察。

独立同居样本

这意味着样本的每个随机变量具有相同的概率分布,并且都是相互独立的。

标签

输出数据用于训练监督学习模型。例如,为了训练猫分类器模型,我们需要准备一个数据集,在其中我们通过说明它是否是猫来标记图像。

学习率

任何优化问题中的调整参数决定了每个时期的步长,同时朝着任何损失函数的最小值(全局/局部)移动。

失利

简单来说,Loss = (Actual value) - (Predicted value)。与错误相同;因此,损失值越低,模型越好(除非过度拟合)

局部最小值

损失函数的值在局部区域的该点处变为最小值。这是一个函数值小于附近但可能大于远处的点。

机器学习

一个计算机科学领域,使计算机无需明确编程即可学习。

模型

模型是在数据上运行的任何 ML 算法的输出。它是一种存储包含学习参数的权重和偏差矩阵的数据结构。

神经网络

机器学习算法的灵感来自于构成动物脑细胞的生物神经网络。

正常化

在任何回归问题中,重新缩放特征值以将数据集值限制在标准范围内。它提高了计算速度。

噪音

数据中存在其他无意义的信息。

空精度

准确度可以通过直接预测任何分类问题中最常见的类别来实现。

观察

数据集中的样本行特征值。它也称为实例。

优化器

改变参数值以使损失达到最小的方法。它们用于通过最小化成本函数来解决优化问题。例如,梯度下降

离群值

与其他观察结果显着不同的数据样本。

过拟合

模型训练误差明显小于模型测试误差的情况。在这种情况下,模型在训练数据上表现非常好,但在测试数据上表现不佳。

参数

我们通过训练任何机器学习模型来学习其价值的变量。例如,神经网络的权重。

精确

Precision 试图回答这个问题,True Positive 的哪一部分实际上是正确的?

记起

Recall 试图回答以下问题:正确识别出阳性的哪一部分?

回归

一种机器学习,其中预测输出是连续的。

正则化

一种用于解决过拟合问题的技术。

强化学习

机器学习的一个子集,其中学习基于基于代理在环境中所采取的行动来最大化奖励。

ROC(接收器操作特性)曲线

真阳性率假阳性率的图表用于检查分类模型在不同分类阈值下的性能。

灵敏度

特异性

监督学习

在标记数据集的监督下训练机器学习模型。

测试集

数据样本用于检查机器学习模型的通用性。这些集合对模型是不可见的。

动车组

用于训练机器学习模型的数据集。

迁移学习

一种机器学习算法选择已训练模型的权重并根据问题要求对其进行微调的方法。

真阳性率

与召回相同。

类型 1 错误

与假阳性相同

类型 2 错误

与假阴性相同

欠拟合

机器学习模型不学习数据中存在的变化的情况。

通用逼近定理

对于 ANN,如果模型针对 (a,b) 的输入范围进行训练,则预计该模型将在仅位于 (a,b) 范围内的测试数据集上表现良好。

无监督学习

一类机器学习,其中训练基于未标记的数据集例如,降维、聚类。

验证集

一个数据集,用于在训练时通过检查调整参数的通用性来验证训练模型。

方差

对训练数据集中的小波动敏感的错误。它可以有两种类型:

低方差-指模型输出变化很小的情况。

高方差-指模型开始非常准确地遵循噪声模式并最终过度拟合数据的情况。

在测试模型时,预测在下左图中击中了靶心。因此它的方差很小。在右图中,预测是分散的,在测试时未能收敛;因此它具有很高的方差。

低方差 高方差

权重

机器学习中的可学习参数。

Z-均值

标准化也称为 Z 均值标准化。

参考:https ://developers.google.com/machine-learning/glossary

责编:Challey
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
新款开发板售价仅为249美元,而上一代40 TOPS开发板售价为499美元,价格仅为上一代的一半。这使得Jetson Orin Nano Super成为“世界上最经济实惠的生成式AI计算机”,特别适合商业AI开发者、爱好者和学生使用。
面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战,国产EDA仍需不断探索和创新。
近年来,AWS还积极投资于人工智能(AI)、机器学习(ML)、大数据分析和边缘计算等前沿技术,以保持其在这些领域的竞争优势。
通过机器学习技术,EDA工具可以获取更精确的模型来预测设计中存在的问题,如布线拥塞、信号干扰、热效应等,从而为用户提供更准确快速的指导,避免后期返工。
这一新规则可能会引起美国在世界各地的合作伙伴和盟友的重大担忧,以及一些国家的不满,担心美国会充当单方面仲裁者,决定谁可以获得对AI至关重要的先进芯片。
股东诉讼指控英伟达的首席执行官黄仁勋隐藏了公司记录性收入增长主要由其旗舰产品GeForce GPU的挖矿销售驱动,而非游戏销售,导致投资者对公司的盈利来源和风险敞口产生错误认知。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
来源:苏州工业园区12月17日,江苏路芯半导体技术有限公司掩膜版生产项目迎来重要进展——首批工艺设备机台成功搬入。路芯半导体自2023年成立以来,专注于半导体掩膜版的研发与生产,掌握130nm至28n
来源:观察者网12月18日消息,自12月2日美国发布新一轮对华芯片出口禁令以来,不断有知情人士向外媒透露拜登政府在卸任前将采取的下一步动作。美国《纽约时报》12月16日报道称,根据知情人士以及该报查阅
对于华为来说,今年的重磅机型都已经发完了,而明年的机型已经在研发中,Pura 80就是期待很高的一款。有博主爆料称,华为Pura 80将会用上了豪威OV50K传感器,同时电池容量达到5600毫安时。至
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
近期,高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播:加入LED显示行业群,请加VX:hangjia188■ 高科视像:MLED新型显示面板生产项目(二期)招标12月18日,山西高科
在科技浪潮翻涌的硅谷,马克·扎克伯格不仅是“脸书”帝国的掌舵人,更是以其谦逊低调的形象,在公众心中树立了独特的领袖风范。然而,在镁光灯难以触及的私人领域,扎克伯格与39岁华裔妻子普莉希拉·陈的爱情故事
点击蓝字 关注我们电网和可再生能源系统向着更智能、更高效的方向发展助力优化能源分配构建更加绿色和可靠的能源未来12 月 24 日 上午 9:30 - 11:302024 德州仪器新能源基础设施技术直播
极越汽车闪崩,留下一地鸡毛,苦的是供应商和车主。很多人都在关心,下一个倒下的新能源汽车品牌,会是谁?我们都没有未卜先知的超能力,但可以借助数据管中窥豹。近日,有媒体统计了15家造车新势力的销量、盈亏情
亲爱的企业用户和开发者朋友们距离2024 RT-Thread开发者大会正式开幕仅剩最后3天!还没报名的小伙伴,抓紧报名噢,12月21日不见不散!大会时间与地点时间:2024年12月21日 9:30-1