在机器学习领域,经常听到诸如“XGBoost”和“F-Score”之类的术语。最常见的两种是“监督”和“无监督”学习。今天,我们为您深入浅出讲解!
其实,监督学习与无监督学习,就好比现在大多数中国家庭里面对孩子的教育一样。有的父母喜欢监督、指导孩子学习,这样不仅仅父母累,孩子可能也会累,得到的都是标准答案;另一类是非常有自主学习能力和习惯的孩子,他们会主动去学习,去寻找正确的答案,有时候得到的答案可能不是标准答案,但是这样孩子的学习能力是非常强的。而且,等到初中及以上,大部分父母都没法进行监督学习了。这就像机器学习一样,当面对大量的数据和分析时,人已经无能为力,必须通过无监督学习进行。对孩子的教育也一样,刚开始可以实行监督学习,慢慢地必须让其掌握方法,培养习惯,让其进入无监督学习状态。
什么是机器学习?
什么是机器学习?这个定义引起了激烈的争论,我们引用机器学习大师 Andrew Ng (吴恩达)的名言来解释:
“机器学习是一种技术,它可以让计算机仅通过查看数据就变得越来越智能。”
现在,我们来讨论让这些计算机变得更智能的方法。
监督与无监督学习
从广义上讲,您可以将大多数机器学习算法归为两类之一——有监督和无监督。如果您意识到您需要使用机器学习来解决问题,您将需要确定您将使用哪种方法。
在监督学习算法的情况下,您可以通过告诉模型答案是什么来拟合模型。这很像您的说西班牙语的朋友指着桌子说“Mesa”。现在,您知道西班牙语中的桌子是什么了!她为您提供了正确的输入和输出,以便您进行关联。监督学习算法也是如此。
无监督学习就是学习,但是,你猜对了,没有提供答案!这完全是另一场比赛。这些算法似乎神奇地解决了我们甚至不知道存在的数据问题。
监督学习:示例
因此,需要为监督学习算法提供答案(也称为标签)。然后它可以在输入和提供的答案之间绘制出“转换”或翻译。例如,更多的学习时间会映射到更高的成绩吗?直觉上,我会说是的,我们可以使用数据更确定地回答。我们需要做的就是跟踪学生投入了多少时间学习样本,然后通过提供答案来训练模型。
下面是两所葡萄牙学校的学生最终成绩与下面的学习小时数组(箱)进行了对比:
我们可以看到一个小的正相关,这意味着学习时间更长和取得更好的成绩之间可能存在联系。虽然令人惊讶的是,这种关系并没有你想象的那么牢固!学习时间长不一定总能给你更好的成绩。正如他们所说,“......更聪明,而不是更难”!
无监督学习
这就是魔法发生的地方。当你的老板递给你一些非描述性数据时,你会使用这些算法,比如“嘿,你知道机器学习。你能从这些数据中找到什么?”。
聚类
无监督学习算法不需要标签就可以使用。相反,我们可以简单地输入数据来进行一些“数据挖掘”。即使刚进入教室,您是如何感觉到教室里的“朋友群”的?也许是他们坐得有多近,或者他们的服装相似。同样,我们可以使用无监督学习在数据中找到分组。
对于一个经典示例,可以查看客户细分问题(数据集)。这个想法是有一些关于客户的信息,并且您怀疑可能存在一些组(或细分)。了解这一点可能有助于定位营销和业务工作。
使用聚类算法 k-means,我们可以清楚地看到有一组集群是高收入者和高支出者。还有一个低支出、高收入的群体。
异常检测
聚类并不是无监督学习唯一可以做的事情!无监督学习有很多技巧。另一个无监督学习问题集是异常检测。这在各种场景中都很方便。例如,您可以发现来自传感器的错误数据点、识别欺诈者并突出复杂数据集中的异常事件。
这是一个简单的示例,用于发现与平均值“相差太远”的异常数据点。
降维
复杂的数据集可能很麻烦,尤其是当我们只能想象最多 3 维的图形时。使用一个漂亮的算法,我们可以只用二维来描述复杂的数据。
以500,000 条 美食评论为例。阅读所有评论是不切实际的,更不用说在合理的时间内找到共同的主题和话题了!为此,我们可以使用机器学习对评论进行编码,并将复杂信息减少到二维,以更好地理解数据。下面,我们可以根据二维图中的多维“含义”看到一些清晰的评论分组。
小结
机器可以通过多种方式学习。你使用什么方法取决于数据和你要解决的问题。也许你有一些带有标签的数据,需要归纳起来进行预测,或者你只是想找到一些模式。
其实,监督学习与无监督学习,就好比现在大多数中国家庭里面对孩子的教育一样。有的父母喜欢监督、指导孩子学习,这样不仅仅父母累,孩子可能也会累,得到的都是标准答案;另一类是非常有自主学习能力和习惯的孩子,他们会主动去学习,去寻找正确的答案,有时候得到的答案可能不是标准答案,但是这样孩子的学习能力是非常强的。而且,等到初中及以上,大部分父母都没法进行监督学习了。这就像机器学习一样,当面对大量的数据和分析时,人已经无能为力,必须通过无监督学习进行。对孩子的教育也一样,刚开始可以实行监督学习,慢慢地必须让其掌握方法,培养习惯,让其进入无监督学习状态。
对于学生或者孩子,我们总是希望能够提前了解或者说预测TA的成绩将是多少?有没有想过这个神奇的方法:可以用机器学习来预测学生成绩,没错,确实可以的,而且比较精准。需要本文中的数据集或者感兴趣的朋友可以关注我们或者联系作者(微信同名),下期将会推出这个主题:怎样用AI/机器学习来预测学生的成绩!