点击蓝字 关注我们
SUBSCRIBE to US
ISTOCK
人工神经网络(https://spectrum.ieee.org/what-is-deep-learning)——受生物大脑启发的算法——是现代人工智能的核心,在聊天机器人和图像生成器之后。但是,由于它们有很多神经元,它们可能是黑匣子(https://www.nature.com/articles/d41586-024-01314-y),用户无法解释它们的内部运作。
研究人员现在创造了一种全新的方法来制造神经网络,在某些方面超越了传统系统。支持者说,这些新网络更容易解释,也更准确,即使它们更小。他们的开发人员表示,学习简洁地表示物理数据的方式可以帮助科学家发现新的自然规律。
“It’s great to see that there is a new architecture on the table.”
—Brice Ménard, Johns Hopkins University
约翰斯·霍普金斯大学的物理学家Brice Ménard表示,在过去的十年或更长时间里,工程师们大多通过反复试验来调整神经网络设计。他研究神经网络是如何运作的,但没有参与这项于4月发布在arXiv上的新工作(https://arxiv.org/abs/2404.19756)。“很高兴看到一种新的架构出现了,”他说,尤其是一种根据第一性原理设计的架构。
思考神经网络的一种方式是类比神经元或节点、突触或这些节点之间的连接。在传统的神经网络中,称为多层感知器(MLP),每个突触学习一个权重——一个决定这两个神经元之间连接强度的数字。神经元分层排列,使得来自一层的神经元从前一层神经元获取输入信号,并根据其突触连接的强度进行加权。然后,每个神经元对其输入的总和应用一个简单的函数,称为激活函数。
在新的架构中,突触扮演着更复杂的角色。他们不是简单地学习两个神经元之间的连接有多强,而是学习这种连接的全部性质——将输入映射到输出的函数。与传统架构中神经元使用的激活函数不同,这个函数可能更复杂——实际上是一个“样条”或几个函数的组合——并且在每个实例中都是不同的。另一方面,神经元变得更简单——它们只是将所有先前突触的输出相加。新的网络被称为Kolmogorov-Arnold网络(KANs),以两位研究函数如何组合的数学家的名字命名。其想法是,KAN在学习表示数据时将提供更大的灵活性,同时使用更少的学习参数。
“It’s like an alien life that looks at things from a different perspective but is also kind of understandable to humans.”
—Ziming Liu, Massachusetts Institute of Technology
研究人员在相对简单的科学任务上测试了他们的KAN。在一些实验中,他们采用了简单的物理定律,例如两个相对论速度物体相互通过的速度。他们使用这些方程来生成输入输出数据点,然后,对于每个物理函数,在一些数据上训练一个网络,并在其余数据上进行测试。他们发现,增加KAN的大小比增加MLP的大小更快地提高了它们的性能。在求解偏微分方程时,KAN的精度是MLP的100倍,MLP的参数是KAN的100倍。
在另一个实验中,他们训练网络根据节点的其他属性预测拓扑节点的一个属性,称为它们的签名。MLP使用约300000个参数实现了78%的测试准确率,而KAN仅使用约200个参数就实现了81.6%的测试准确度。
更重要的是,研究人员可以直观地绘制出KAN,并查看激活函数的形状以及每个连接的重要性。无论是手动还是自动,它们都可以削减弱连接,并用更简单的激活函数(如正弦或指数函数)替换一些激活函数。然后,他们可以将整个KAN总结为一个直观的单行函数(包括所有组件激活函数),在某些情况下可以完美地重建创建数据集的物理函数。
“未来,我们希望它能成为日常科学研究的有用工具(https://spectrum.ieee.org/ai-for-science),”麻省理工学院的计算机科学家、该论文的第一作者Ziming Liu说,“给定一个我们不知道如何解释的数据集,我们只需将其交给KAN,它就可以为你生成一些假设(https://www.nature.com/articles/d41586-023-03596-0)。你只需盯着大脑(KAN图),如果你愿意,你甚至可以对它进行手术。这就像一个外星生命,从不同的角度看待事物,但对人类来说也是可以理解的。”
数十篇论文已经引用了KAN的预印本。“我看到它的那一刻似乎非常激动人心,”阿根廷圣安德烈斯大学计算机科学本科生Alexander Bodner说。在一周内,他和三位同学将KAN与卷积神经网络(CNN)相结合,卷积神经网络是一种流行的图像处理架构。他们测试了卷积KAN对手写数字或衣服碎片进行分类的能力(https://arxiv.org/abs/2406.13155)。最好的一个与传统CNN的性能大致相当(两个网络在数字上的准确率均为99%,在服装上的准确度均为90%),但使用的参数减少了约60%。数据集很简单,但Bodner说,其他具有更强计算能力的团队已经开始扩大网络规模。其他人正在将KAN与transformers相结合,transformers是一种在大型语言模型中流行的架构。
KAN的一个缺点是每个参数的训练时间更长,部分原因是它们无法利用GPU。但他们需要更少的参数。Liu指出,即使KAN不取代处理图像和语言的巨型CNN和转换器,在许多较小规模的物理问题上,训练时间也不会成为问题。他正在研究如何让专家将他们的先验知识插入到KANs中——比如通过手动选择激活函数——并使用简单的界面轻松地从中提取知识。他说,有一天,KAN可以帮助物理学家发现高温超导体或控制核聚变的方法(https://spectrum.ieee.org/tag/superconductors)。
微信号|IEEE电气电子工程师学会
新浪微博|IEEE中国
· IEEE电气电子工程师学会 ·
往
期
推
荐
后量子密码学之路
VR和元宇宙的安全性
识别深度伪造
对人类意识的重视回归网络安全视野