这是机器学习业界常用的机器学习术语表。

这是机器学习业界常用的机器学习术语表。

准确性

准确性用于评估任何分类模型。它被定义为正确预测总数的百分比。在数学上它表示为:

算法

在机器学习中,算法是应用于数据以创建机器学习模型的过程。例如,线性回归、决策树。

注解

为未标记数据分配标签的过程。例如,在手写数字识别任务中,如果我们将 8 的值分配给 8 的图像。

人工神经网络

人工神经网络是受构成动物脑细胞的生物神经网络启发的机器学习算法。

属性

实例的一个方面。如果我们谈论结构化数据并以表格格式存储值,那么列代表属性。例如,假设我们要估计今天的大气温度,为此,我们记录了大气压力、风速和其他基本属性。这些属性称为属性。

AUC(曲线下面积)

ROC 曲线下的面积表示分类模型在所有分类阈值下的总体性能。ROC曲线表示真阳性率相对于假阳性率的变化。

偏见

偏差通过使我们的模型对任何特征或数据点更不敏感或更敏感来帮助概括结果。由于不正确的 ML 过程假设,偏差被认为是机器学习模型中的系统错误。

偏差误差

由于算法倾向于通过不考虑所有数据信息来持续学习错误事物而导致的错误。

高偏差-对数据做出假设的趋势增加,因此误差增加。

低偏差-对数据做出假设的趋势变小。模型在训练数据上准确学习。

下面的右侧图显示了点分散在圆的中心周围,因此具有较低的偏差。

但右图中存在很大偏差,因为散射只发生在特定方向。

低偏置与高偏置

分类

分类是机器学习中的一个问题陈述,模型试图预测输出类别。可以有两种分类:

二进制分类输入分类为两个二进制类;例如,图像中是否包含猫,Statement as True or False。

多标签分类-对多个类中的对象进行分类。例如,图像同时检测到房子、猫、狗等的存在。

分类阈值

它是做出特定决定的极限值。假设一个机器学习模型以 X% 的保证预测猫在任何图像中的存在。我们已经设定了标准,如果置信度 > 60%,那么这将是一个有效的预测。那么分类的阈值为60。

聚类

一种无监督学习,模型根据一些固有的数据特征将输入数据分组到不同的桶中。通常,集群由具有相似特征的项目组成。最常用的聚类算法是 K-Means、层次聚类和亲和聚类。

混淆矩阵

机器学习分类问题的性能测量指标,其中输出可以是两个或更多类。它将预测分为四类,

True Positive猫的图像被机器学习模型归类为猫的图像。

True Negative输入图像中没有猫,机器学习模型也预测没有猫。

误报:狗的图像被机器学习模型分类为猫的图像。这也称为I 类错误

假阴性:输入图像中有一只猫,但机器学习模型预测没有猫。它们也被称为II 型错误

收敛

训练机器学习模型期间的一种状态,当连续时期之间损失值的变化变小时。更具体地说,如果损失函数的代价变化很小,那么可以说模型找到了最小值,或者说它的位置不会进一步改变,即已经收敛。

深度学习

机器学习的一个子领域,处理基于人工神经网络的算法,并能够理解时间和空间依赖性。它也被称为深度结构化学习。

方面

机器学习中的维度是指已用作机器学习算法输入的特征数量。

退出

一种正则化器,用于在训练神经网络时通过丢弃隐藏或可见单元来防止过度拟合。

时代

1 Epoch = 对整个数据集的 1 次迭代。

外推

超出原始观测范围的一种估计。

误报率 (FPR)

数学上计算如下:

特征

特征被称为属性和值(最终用于训练)。温度是属性,温度 = 25°C 是一个特征。

特征向量

特征向量列出了所有馈送到 ML 模型的特征。

全局最小值

损失函数值在整个损失函数域中全局达到最小值。它是函数在其整个范围内的最小整体值。

隐藏层

神经网络中输入层和输出层之间的层是隐藏层。

超参数

一个参数,其值用于控制学习过程。例如,神经网络中隐藏层的数量。

实例

数据集中的样本行特征值。它也被称为观察。

独立同居样本

这意味着样本的每个随机变量具有相同的概率分布,并且都是相互独立的。

标签

输出数据用于训练监督学习模型。例如,为了训练猫分类器模型,我们需要准备一个数据集,在其中我们通过说明它是否是猫来标记图像。

学习率

任何优化问题中的调整参数决定了每个时期的步长,同时朝着任何损失函数的最小值(全局/局部)移动。

失利

简单来说,Loss = (Actual value) - (Predicted value)。与错误相同;因此,损失值越低,模型越好(除非过度拟合)

局部最小值

损失函数的值在局部区域的该点处变为最小值。这是一个函数值小于附近但可能大于远处的点。

机器学习

一个计算机科学领域,使计算机无需明确编程即可学习。

模型

模型是在数据上运行的任何 ML 算法的输出。它是一种存储包含学习参数的权重和偏差矩阵的数据结构。

神经网络

机器学习算法的灵感来自于构成动物脑细胞的生物神经网络。

正常化

在任何回归问题中,重新缩放特征值以将数据集值限制在标准范围内。它提高了计算速度。

噪音

数据中存在其他无意义的信息。

空精度

准确度可以通过直接预测任何分类问题中最常见的类别来实现。

观察

数据集中的样本行特征值。它也称为实例。

优化器

改变参数值以使损失达到最小的方法。它们用于通过最小化成本函数来解决优化问题。例如,梯度下降

离群值

与其他观察结果显着不同的数据样本。

过拟合

模型训练误差明显小于模型测试误差的情况。在这种情况下,模型在训练数据上表现非常好,但在测试数据上表现不佳。

参数

我们通过训练任何机器学习模型来学习其价值的变量。例如,神经网络的权重。

精确

Precision 试图回答这个问题,True Positive 的哪一部分实际上是正确的?

记起

Recall 试图回答以下问题:正确识别出阳性的哪一部分?

回归

一种机器学习,其中预测输出是连续的。

正则化

一种用于解决过拟合问题的技术。

强化学习

机器学习的一个子集,其中学习基于基于代理在环境中所采取的行动来最大化奖励。

ROC(接收器操作特性)曲线

真阳性率假阳性率的图表用于检查分类模型在不同分类阈值下的性能。

灵敏度

特异性

监督学习

在标记数据集的监督下训练机器学习模型。

测试集

数据样本用于检查机器学习模型的通用性。这些集合对模型是不可见的。

动车组

用于训练机器学习模型的数据集。

迁移学习

一种机器学习算法选择已训练模型的权重并根据问题要求对其进行微调的方法。

真阳性率

与召回相同。

类型 1 错误

与假阳性相同

类型 2 错误

与假阴性相同

欠拟合

机器学习模型不学习数据中存在的变化的情况。

通用逼近定理

对于 ANN,如果模型针对 (a,b) 的输入范围进行训练,则预计该模型将在仅位于 (a,b) 范围内的测试数据集上表现良好。

无监督学习

一类机器学习,其中训练基于未标记的数据集例如,降维、聚类。

验证集

一个数据集,用于在训练时通过检查调整参数的通用性来验证训练模型。

方差

对训练数据集中的小波动敏感的错误。它可以有两种类型:

低方差-指模型输出变化很小的情况。

高方差-指模型开始非常准确地遵循噪声模式并最终过度拟合数据的情况。

在测试模型时,预测在下左图中击中了靶心。因此它的方差很小。在右图中,预测是分散的,在测试时未能收敛;因此它具有很高的方差。

低方差 高方差

权重

机器学习中的可学习参数。

Z-均值

标准化也称为 Z 均值标准化。

参考:https ://developers.google.com/machine-learning/glossary

责编:Challey
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
9月10日,苹果发布了一系列新品,包括iPhone 16系列手机、Apple Watch Series 10智能手表和AirPods 4耳机。发布会后网上响起了一片吐嘈声,带着这些吐槽,我们来看看这次苹果到底有没有新玩意……
Rambus的HBM4控制器IP还具备多种先进的特性集,旨在帮助设计人员应对下一代AI加速器及图形处理单元(GPU)等应用中的复杂需求。这些特性使得Rambus在HBMIP领域继续保持市场领导地位,并进一步扩展其生态系统支持。
2016-2023年中国独角兽企业总估值由近5000亿美元持续攀升至超1.2万亿美元,其中在2020年首破万亿美元。
HBM4作为第六代HBM芯片,不仅在能效上较现有型号提升40%,延迟也降低了10%,成为各大芯片厂商竞相追逐的焦点。
对于股价波动的原因,寒武纪表示,除了公司经营层面的因素外,还可能受到其他因素的影响。寒武纪还提醒投资者,应甄别信息来源,具体情况以公司公告为准。
此次财报也从侧面反应了半导体行业在AI业务上的强劲增长势头,但同时也暴露出非AI业务增长乏力的困境。
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
点击蓝字 关注我们德州仪器全球团队坚持克服挑战,为电源模块开发新的 MagPack™ 封装技术,这是一项将帮助推动电源设计未来的突破性技术。  ■ ■ ■作为一名经验丰富的马拉松运动员,Kenji K
文|沪上阿YI路特斯如今处在一个什么样的地位?吉利控股集团高级副总裁、路特斯集团首席执行官冯擎峰一直有着清晰的认知:“这个品牌的挑战依然非常大。首先,整个中国市场豪华汽车整体数据下滑了30%~40%,
周二,捷普科技(Jabil)官员与印度泰米尔纳德邦代表团在泰米尔纳德邦首席部长MK Stalin的见证下,签署了一份备忘录。MK Stalin正在美国进行为期17天的访问,旨在吸引新的投资。MK St
天眼查信息显示,天津三星电子有限公司经营状态9月6日由存续变更为注销,注销原因是经营期限届满。该公司成立于1993年4月,法定代表人为YUN JONGCHUL(尹钟撤),注册资本约1.93亿美元,
在当今人工智能飞速发展的时代,AI Agent正以其独特的方式重塑着企业的生产运营方式。澜码科技作为AI Agent领域的先行者,其创始人兼CEO周健先生分享了对大模型与AI Agent发展现状的深刻
会议预告向世界展示中国最具创新力、领导力和品牌化的产品与技术!9月27号,“第6届国际移动机器人集成应用大会暨复合机器人峰会”将在上海举行,敬请关注!逐个击破现有痛难点。文|新战略半导体行业高标准、灵
疫情后的劳动力囤积和强有力的员工保护规则掩盖了德国高薪制造业工作市场令人担忧的变化。根据联邦劳工办公室的数据,欧元区最大经济体德国的失业率在2019年春季曾达到历史最低点4.9%,现已上升至6%。虽然
今日碎碎念由于所租的共享办公空间政策的调整,上周我和我队友又搬到开放共享空间了。所以,也就有了新同桌。从我的观察来看,新同桌们应该基于AI应用的创业型公司。之所以想起来叨叨这个,是因为两位新同桌正在工
近日,3个电驱动项目迎来最新进展,包括项目量产下线、投产、完成试验等,详情请看:[关注“行家说动力总成”,快速掌握产业最新动态]青山工业:大功率电驱项目下线9月5日,据“把动力传递到每一处”消息,重庆