【光电智造】一文读懂机器学习常用算法的基本概念和适用场景

今日光电 2025-02-09 18:04

今日光电

     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!


----追光逐电 光引未来----


引用一句英国统计学家George E. P. Box的名言:All models are wrong, but some are useful. 没有哪一种算法能够适用所有情况,只有针对某一种问题更有用的算法。
机器学习算法不会要求一个问题被 100%求解,取而代之的是把问题转化为最优化的问题,用不同的算法优化问题,从而比较得到尽量好的结果。因此对于数据科学家来说,理解算法显得格外重要,理解不同算法的思想可以帮助数据科学家更从容地面对不同的应用场景。

本文列出了常用的机器学习算法的基本概念、主要特点和适用场景,希望可以在大家选择合适的机器学习算法解决实际问题时起到一点参考作用。


本文主要提及的机器学习算法包括:


·K近邻(KNN)算法

·朴素贝叶斯算法

·决策树算法

·SVM算法

·adaboost算法

·EM算法(期望最大化算法)


下面我们将具体展开介绍:
图片

NO.1

KNN算法

图片
KNN算法的基本介绍:假若一个特征空间中大多数的样本属于某一个类别,则在这个特征空间中,k个最相似的样本也属于这个类别。

该算法由两个步骤组成:(1)对于一个给定的搜索训练集按一定距离度量,来找到一个 的值。(2)在这个KNN当中,根据大多数分为一致的类来进行分类。

用以下这幅图可以很好的解释kNN算法:

不同形状的点,为不同标签的点。其中绿色点为未知标签的数据点。现在要对绿色点进行预测。由图不难得出:

如果k=3,那么离绿色点最近的有2个红色三角形和1个蓝色的正方形,这3个点投票,于是绿色的这个待分类点属于红色的三角形。

如果k=5,那么离绿色点最近的有2个红色三角形和3个蓝色的正方形,这5个点投票,于是绿色的这个待分类点属于蓝色的正方形。


图片

K近邻(KNN)算法优点:

·算法原理简单,容易理解,也较容易实现。

·不需要进行训练,只需要保存训练样本和标签。

·不易受小错误概率的影响。经理论证明,最近邻的渐进错误率最坏时不超过两倍的贝叶斯错误率,最好时接近或达到贝叶斯错误率。

K近邻(KNN)算法缺点:

·K的选择不固定。

·预测结果容易受到噪声数据的影响。

·当样本不平衡时,新样本的类别偏向训练样本中数量占优的类别,容易导致预测错误。

·当数据量较大时,具有较高的计算复杂度和内存消耗,因为对每一个待分类的文本,都要计算它到全体已知样本的距离,才能求得它的K个最近邻。


适用场景及主要应用领域:


由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。在实际应用当中,KNN算法在人脸识别、文字识别、医学图像处理等领域可以取得良好的分类效果。


K近邻(KNN)算法需要注意的问题:


·数据特征之间量纲不统一时,需要对数据进行归一化处理,否则会出现大数吃小数的问题;

·数据之间的距离计算通常采用欧式距离;

· kNN算法中K值的选取会对结果产生较大的影响,一般k值要小于训练样本数据的平方根;

·通常采用交叉验证法来选择最优的K值。


NO.2

朴素贝叶斯算法

图片
朴素贝叶斯分类是一种十分简单的分类算法,即对于给出的待分类项,求解在此项出现的条件下各个类别

朴素贝叶斯算法注意点:


·当特征属性值的值类型不是离散值而是连续值的时候,需要通过高斯分布做概率的计算;


·为了避免统计概率中出现概率为0的情况,可以引入Laplace校准,它的思想非常简单,就是对没类别下所有划分的计数加1。


适用场景及主要应用领域:


1. 朴素贝叶斯算法对待预测样本进行预测,过程简单速度快;


2. 对于多分类问题也同样很有效,复杂度也不会有大程度上升;


3.在分布独立这个假设成立的情况下,贝叶斯分类器效果奇好,会略胜于逻辑回归,同时需要的样本量也更少一点。


4.对于类别类的输入特征变量,效果非常好。对于数值型变量特征,我们是默认它符合正态分布的。


主要应用领域


·文本分类/垃圾文本过滤/情感判别:多分类较为简单,同时在文本数据中,分布独立这个假设基本是成立的。垃圾文本过滤(比如垃圾邮件识别)和情感分析(微博上的褒贬情绪)用朴素贝叶斯也通常能取得很好的效果。

·多分类实时预测:对于文本相关的多分类实时预测,朴素贝叶斯算法被广泛应用,简单又高效。

·推荐系统:朴素贝叶斯和协同过滤(Collaborative Filtering)是一对好搭档,协同过滤是强相关性,但是泛化能力略弱,朴素贝叶斯和协同过滤一起,能增强推荐的覆盖度和效果。


NO.3

决策树算法

图片
决策树是一个树结构(可以是二叉树或非二叉树),其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个输出类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。


图片


决策树学习通常包含这几个方面:特征选择、决策树生成、决策树剪枝、缺失值/异常值处理、决策树集成学习。


决策树算法注意点:


·决策树算法非常容易过拟合,导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。

·决策树会因为样本发生一点点的改动,就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。

·寻找最优的决策树是一个NP难的问题,一般通过启发式方法,容易陷入局部最优。可以通过集成学习之类的方法来改善。

·有些比较复杂的关系,决策树很难学习,比如异或,一般这种关系可以换神经网络分类方法来解决。

·如果某些特征的样本比例过大,生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善(特别注意,在模型训练过程中,某些特征的权重排序很大,需要手动调节样本的权重来影响特征的权重,主要有样本的均衡,样本的过滤,样本权重的调节)。


适用场景及主要应用领域:


相比其他算法,决策树有一个非常明显的优势,就是可以很直观地进行可视化,分类规则好理解,让非专业的人也容易看明白,既可以解决分类问题(对应的目标值是类别型的数据),也能解决回归问题(输出结果也可以是连续的数值),目前广泛应用于语音识别、人脸识别、医疗诊断、模式识别等领域。


NO.4

SVM算法

图片
支持向量机,support vector machine,简称SVM,是经典机器学习的一个重要分类算法,用于完成数据分类。svm算法通过找出一个决策超平面(二维空间指直线,三维空间指平面,超过三维的就是超平面了),将已有训练数据集划分开,然后对于新数据,根据数据是位于超平面的哪一侧完成判断,得到新数据的分类。

因此基础的svm算法是一个二分类算法,至于多分类任务,多次使用svm即可解决。

下图是一组支持向量机实现分类的示例。


图片


SVM算法注意点:


·SVM可以执行线性非线性的分类、回归、异常值检测。适用于中小型复杂数据集;

·SVM对特征缩放很敏感,可以在输入之前采用StandardScaler处理;

·如果SVM模型过拟合,可以通过降低C来进行正则化;

·LinearSVC灰度偏执正则化,需要减去平均值,StandardScaler会自动处理;


·处理非线性数据集的方法之一是添加更多的特征,比如多项式特征。


适用场景及主要应用领域:


支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,但它具有以下缺点:


·无法应对大规模训练样本;


·难以解决多分类问题;


·对参数及核函数选择非常敏感。


支持向量机的常见适用范围如下:


·网络完全


传统的网络入侵检测方法大多采用密码签名的方法。在进行入侵检测方面,机器学习技术可以帮助我们进行网络流量的分析,在这里支持向量机具有检测速度快,分类精度高等特点,可以帮助安全人员识别不同类别的网络攻击,例如扫描和欺诈网络。


·人脸识别


SVM可以将图像部分分为人脸和非人脸。它包含nxn像素的训练数据,具有两类人脸(+1)和非人脸(-1),然后从每个像素中提取特征作为人脸和非人脸。根据像素亮度在人脸周围创建边界,并使用相同的过程对每个图像进行分类。


·文本和超文本分类


SVM可以实现对两种类型的模型进行文本和超文本分类,它主要通过使用训练数据将文档分类为不同的类别,如新闻文章、电子邮件和网页。


对于每个文档,计算一个分数并将其与预定义的阈值进行比较。当文档的分数超过阈值时,则将文档分类为确定的类别。如果它不超过阈值,则将其视为一般文档。


通过计算每个文档的分数并将其与学习的阈值进行比较来对新实例进行分类。


·蛋白质折叠和远程同源检测


蛋白质远程同源性检测是计算生物学中的一个关键问题。SVM算法是远程同源检测最有效的方法之一。这些方法的性能取决于蛋白质序列的建模方式。


NO.5

adaboost算法

图片
在了解adaboost算法之前,我们先来重温一下三个臭皮匠顶个诸葛亮的故事:诸葛亮带兵过江,江水湍急,而且里面多是突出水面的礁石。普通竹筏和船只很难过去,打头阵的船只都被水冲走触礁沉没,诸葛亮一筹莫展,也想不出好办法,入夜来了3个做牛皮活的皮匠献策。告诉诸葛亮买牛,然后把牛从肚皮下整张剥下来,封好切口后让士兵往里吹气,做成牛皮筏子,这样的筏子不怕撞,诸葛亮按此方法尝试并顺利过江。


Adaboost就是这样一种“三个臭皮匠顶个诸葛亮”的迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。


图片


adaboost算法注意点:


·AdaBoost迭代次数也就是弱分类器数目不太好设定,可以使用交叉验证来进行确定;

·数据不平衡导致分类精度下降;

·训练比较耗时,每次重新选择当前分类器最好切分点;

·对异常样本敏感,异常样本在迭代中可能会获得较高的权重,影响最终的强学习器的预测准确性。


适用场景及主要应用领域:


在机器学习的算法中,Adaboost 算法是一种比较重要且通用的用于特征分类的算法,在图像检索和人脸表情识别等问题中都有普遍应用。从现状看,人们对Adaboost 算法的研究及应用主要集中用于分类问题上,另外在某些回归问题上也有所涉及,比如两类问题、多类单标签问题、多类多标签问题和回归问题。

Adaboost 在机器学习领域中十分重要,它是一种提高任意给定学习算法准确度的方法。也就是说,Adaboost 算法为其他算法提供了一种框架结构,而其他算法只在其中作为子分类器,因此 Adaboost 算法可以运用在许多方面的实践上。

通过 Adaboost 算法

·可以实现手写体字符识别,运用到了许多输入设备上,如流行的触屏手机上的手写输入、笔记本电脑的手写输入、扫描仪扫面文字转化为电子文档。

·图像识别,如人脸识别、google 上的图片检索功能(很方便地找到想要的清晰度更高的图片)。我们实现了语音识别,现在的WIN7上都有了一个语音识别的功能,我们能够让计算机知道我们说了什么话,并通过机器自动学习提高语音识别的精度,声音输入和声控很可能在未来普及。

·Adaboost 算法还能做文本分类和医疗诊断等等。


NO.6

EM算法

图片
最大期望算法(Expectation-maximization algorithm,又译为期望最大化算法),是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐性变量。

以打猎为例做一个形象的比喻:

比如你一位同学和一位猎人一起外出打猎,一只野兔从前方窜过。只听一声枪响,野兔应声到下,如果要你推测,这一发命中的子弹是谁打的?你就会想,只发一枪便打中,由于猎人命中的概率一般大于你那位同学命中的概率,从而推断出这一枪应该是猎人射中的。

这个例子所作的推断就体现了最大似然法的基本思想。

多数情况下我们是根据已知条件来推算结果,而最大似然估计是已经知道了结果,然后寻求使该结果出现的可能性最大的条件,以此作为估计值。


图片


EM算法注意点:


·对初始化数据敏感。

·EM算法计算复杂,收敛较慢,不适于大规模数据集和高维数据。

·当所要优化的函数不是凸函数时,EM算法容易给出局部最优解,而不是全局最优解。

适用场景及主要应用领域:


·K-Means聚类

K-Means是EM算法的一个特列。在K-Means聚类时,每个聚类簇的质心是隐含数据。我们会假设K个初始化质心,即EM算法的E步;然后计算得到每个样本最近的质心,并把样本聚类到最近的这个质心,即EM算法的M步。重复这个E步和M步,直到质心不再变化为止,这样就完成了K-Means聚类。

·高斯混合模型

高斯混合模型(Gaussian Misture Model)的参数估计是EM算法的一个重要应用。高斯混合模型应用广泛,在许多情况下, EM算法是学习高斯混合模型的有效方法。

·隐马尔科夫模型

EM算法的另一个重要应用是隐马尔科夫模型。

算法的选择取决于许多因素,比如问题陈述、预期的输出类型、数据的类型和大小、可用的计算时间、特征数量以及数据中的观测点等,以上内容仅供大家在选择算法时作为参考,实践和运行才是评估算法的最佳标准。
来源:新机器视觉


申明:感谢原创作者的辛勤付出。本号转载的文章均会在文中注明,若遇到版权问题请联系我们处理。


 

----与智者为伍 为创新赋能----


【说明】欢迎企业和个人洽谈合作,投稿发文。欢迎联系我们
诚招运营合伙人 ,对新媒体感兴趣,对光电产业和行业感兴趣。非常有意者通过以下方式联我们!条件待遇面谈
投稿丨合作丨咨询

联系邮箱:uestcwxd@126.com

QQ:493826566



评论 (0)
  • 硅二极管温度传感器是一种基于硅半导体材料特性的测温装置,其核心原理是利用硅二极管的电学参数(如正向压降或电阻)随温度变化的特性实现温度检测。以下是其工作原理、技术特点及典型应用:一、工作原理1、‌PN结温度特性‌硅二极管由PN结构成,当温度变化时,其正向电压 VF与温度呈线性负相关关系。例如,温度每升高1℃,VF约下降2 mV。2、‌电压—温度关系‌通过jing确测量正向电压的微小变化,可推算出环境温度值。部分型号(如SI410)在宽温域内(如1.4 K至475 K)仍能保持高线性度。
    锦正茂科技 2025-05-09 13:52 55浏览
  • 文/郭楚妤编辑/cc孙聪颖‍相较于一众措辞谨慎、毫无掌舵者个人风格的上市公司财报,利亚德的财报显得尤为另类。利亚德光电集团成立于1995年,是一家以LED显示、液晶显示产品设计、生产、销售及服务为主业的高新技术企业。自2016年年报起,无论业绩优劣,董事长李军每年都会在财报末尾附上一首七言打油诗,抒发其对公司当年业绩的感悟。从“三年翻番顺大势”“智能显示我第一”“披荆斩棘幸从容”等词句中,不难窥见李军的雄心壮志。2012年,利亚德(300296.SZ)在深交所创业板上市。成立以来,该公司在细分领
    华尔街科技眼 2025-05-07 19:25 317浏览
  • 温度传感器的工作原理依据其类型可分为以下几种主要形式:一、热电阻温度传感器利用金属或半导体材料的电阻值随温度变化的特性实现测温:l ‌金属热电阻‌(如铂电阻 Pt100、Pt1000):高温下电阻值呈线性增长,稳定性高,适用于工业精密测温。l ‌热敏电阻‌(NTC/PTC):NTC 热敏电阻阻值随温度升高而下降,PTC 则相反;灵敏度高但线性范围较窄,常用于电子设备温控。二、热电偶传感器基于‌塞贝克效应‌(Seebeck effect):两种不同
    锦正茂科技 2025-05-09 13:31 60浏览
  • 随着智能驾驶时代到来,汽车正转变为移动计算平台。车载AI技术对存储器提出新挑战:既要高性能,又需低功耗和车规级可靠性。贞光科技代理的紫光国芯车规级LPDDR4存储器,以其卓越性能成为国产芯片产业链中的关键一环,为智能汽车提供坚实的"记忆力"支持。作为官方授权代理商,贞光科技通过专业技术团队和完善供应链,让这款国产存储器更好地服务国内汽车厂商。本文将探讨车载AI算力需求现状及贞光科技如何通过紫光国芯LPDDR4产品满足市场需求。 车载AI算力需求激增的背景与挑战智能驾驶推动算力需求爆发式
    贞光科技 2025-05-07 16:54 179浏览
  • 飞凌嵌入式作为龙芯合作伙伴,隆重推出FET-2K0300i-S全国产自主可控工业级核心板!FET-2K0300i-S核心板基于龙芯2K0300i工业级处理器开发设计,集成1个64位LA264处理器,主频1GHz,提供高效的计算能力;支持硬件ECC;2K0300i还具备丰富的连接接口USB、SDIO、UART、SPI、CAN-FD、Ethernet、ADC等一应俱全,龙芯2K0300i支持四路CAN-FD接口,具备良好的可靠性、实时性和灵活性,可满足用户多路CAN需求。除性价比超高的国产处理器外,
    飞凌嵌入式 2025-05-07 11:54 61浏览
  • 后摄像头是长这个样子,如下图。5孔(D-,D+,5V,12V,GND),说的是连接线的个数,如下图。4LED,+12V驱动4颗LED灯珠,给摄像头补光用的,如下图。打开后盖,发现里面有透明白胶(防水)和白色硬胶(固定),用合适的工具,清理其中的胶状物。BOT层,AN3860,Panasonic Semiconductor (松下电器)制造的,Cylinder Motor Driver IC for Video Camera,如下图。TOP层,感光芯片和广角聚焦镜头组合,如下图。感光芯片,看着是玻
    liweicheng 2025-05-07 23:55 232浏览
  • UNISOC Miracle Gaming奇迹手游引擎亮点:• 高帧稳帧:支持《王者荣耀》等主流手游90帧高画质模式,连续丢帧率最高降低85%;• 丝滑操控:游戏冷启动速度提升50%,《和平精英》开镜开枪操作延迟降低80%;• 极速网络:专属游戏网络引擎,使《王者荣耀》平均延迟降低80%;• 智感语音:与腾讯GVoice联合,弱网环境仍能保持清晰通话;• 超高画质:游戏画质增强、超级HDR画质、游戏超分技术,优化游戏视效。全球手游市场规模日益壮大,游戏玩家对极致体验的追求愈发苛刻。紫光展锐全新U
    紫光展锐 2025-05-07 17:07 249浏览
  • 这款无线入耳式蓝牙耳机是长这个样子的,如下图。侧面特写,如下图。充电接口来个特写,用的是卡座卡在PCB板子上的,上下夹紧PCB的正负极,如下图。撬开耳机喇叭盖子,如下图。精致的喇叭(HY),如下图。喇叭是由电学产生声学的,具体结构如下图。电池包(AFS 451012  21 12),用黄色耐高温胶带进行包裹(安规需求),加强隔离绝缘的,如下图。451012是电池包的型号,聚合物锂电池+3.7V 35mAh,详细如下图。电路板是怎么拿出来的呢,剪断喇叭和电池包的连接线,底部抽出PCB板子
    liweicheng 2025-05-06 22:58 470浏览
  • 文/Leon编辑/cc孙聪颖‍《中国家族企业传承研究报告》显示,超四成“企二代” 明确表达接班意愿,展现出对家族企业延续发展的主动担当。中国研究数据服务平台(CNRDS)提供的精准数据进一步佐证:截至 2022 年,已有至少 280 家上市家族企业完成权杖交接,其中八成新任掌门人为创始人之子,凸显家族企业代际传承中 “子承父业” 的主流模式。然而,对于“企二代” 而言,接棒掌舵绝非易事。在瞬息万变的商业环境中,他们既要在白热化的市场竞争中开拓创新、引领企业突破发展瓶颈,又需应对来自父辈管理层的经
    华尔街科技眼 2025-05-06 18:17 20浏览
  • 在过去的很长一段时间里,外卖市场呈现出美团和饿了么双寡头垄断的局面。美团凭借先发优势、强大的地推团队以及精细化的运营策略,在市场份额上长期占据领先地位。数据显示,截至2024年上半年,美团外卖以68.2%的市场份额领跑外卖行业,成为当之无愧的行业老大。其业务广泛覆盖,从一线城市的繁华商圈到二三线城市的大街小巷,几乎无处不在,为无数消费者提供便捷的外卖服务。饿了么作为阿里本地生活服务的重要一环,依托阿里强大的资金和技术支持,也在市场中站稳脚跟,以25.4%的份额位居第二。尽管市场份额上与美团有一定
    用户1742991715177 2025-05-06 19:43 45浏览
  • 二位半 5线数码管的驱动方法这个2位半的7段数码管只用5个管脚驱动。如果用常规的7段+共阳/阴则需要用10个管脚。如果把每个段看成独立的灯。5个管脚来点亮,任选其中一个作为COM端时,另外4条线可以单独各控制一个灯。所以实际上最多能驱动5*4 = 20个段。但是这里会有一个小问题。如果想点亮B1,可以让第3条线(P3)置高,P4 置低,其它阳极连P3的灯对应阴极P2 P1都应置高,此时会发现C1也会点亮。实际操作时,可以把COM端线P3设置为PP输出,其它线为OD输出。就可以单独控制了。实际的驱
    southcreek 2025-05-07 15:06 338浏览
  • Matter协议是一个由Amazon Alexa、Apple HomeKit、Google Home和Samsung SmartThings等全球科技巨头与CSA联盟共同制定的开放性标准,它就像一份“共生契约”,能让原本相互独立的家居生态在应用层上握手共存,同时它并非另起炉灶,而是以IP(互联网协议)为基础框架,将不同通信协议下的家居设备统一到同一套“语义规则”之下。作为应用层上的互通标准,Matter协议正在重新定义智能家居行业的运行逻辑,它不仅能向下屏蔽家居设备制造商的生态和系统,让设备、平
    华普微HOPERF 2025-05-08 11:40 210浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦