一种新型的神经网络更具可解释性

IEEE电气电子工程师学会 2024-08-26 17:46

【TI资料】基于新型C29内核的MCU技术资料 如何增强电动汽车的实时控制能力？

点击蓝字关注我们

SUBSCRIBE to US

ISTOCK

人工神经网络（https://spectrum.ieee.org/what-is-deep-learning）——受生物大脑启发的算法——是现代人工智能的核心，在聊天机器人和图像生成器之后。但是，由于它们有很多神经元，它们可能是黑匣子（https://www.nature.com/articles/d41586-024-01314-y），用户无法解释它们的内部运作。

研究人员现在创造了一种全新的方法来制造神经网络，在某些方面超越了传统系统。支持者说，这些新网络更容易解释，也更准确，即使它们更小。他们的开发人员表示，学习简洁地表示物理数据的方式可以帮助科学家发现新的自然规律。

“It’s great to see that there is a new architecture on the table.”

—Brice Ménard, Johns Hopkins University

约翰斯·霍普金斯大学的物理学家Brice Ménard表示，在过去的十年或更长时间里，工程师们大多通过反复试验来调整神经网络设计。他研究神经网络是如何运作的，但没有参与这项于4月发布在arXiv上的新工作（https://arxiv.org/abs/2404.19756）。“很高兴看到一种新的架构出现了，”他说，尤其是一种根据第一性原理设计的架构。

思考神经网络的一种方式是类比神经元或节点、突触或这些节点之间的连接。在传统的神经网络中，称为多层感知器（MLP），每个突触学习一个权重——一个决定这两个神经元之间连接强度的数字。神经元分层排列，使得来自一层的神经元从前一层神经元获取输入信号，并根据其突触连接的强度进行加权。然后，每个神经元对其输入的总和应用一个简单的函数，称为激活函数。

在新的架构中，突触扮演着更复杂的角色。他们不是简单地学习两个神经元之间的连接有多强，而是学习这种连接的全部性质——将输入映射到输出的函数。与传统架构中神经元使用的激活函数不同，这个函数可能更复杂——实际上是一个“样条”或几个函数的组合——并且在每个实例中都是不同的。另一方面，神经元变得更简单——它们只是将所有先前突触的输出相加。新的网络被称为Kolmogorov-Arnold网络（KANs），以两位研究函数如何组合的数学家的名字命名。其想法是，KAN在学习表示数据时将提供更大的灵活性，同时使用更少的学习参数。

“It’s like an alien life that looks at things from a different perspective but is also kind of understandable to humans.”

—Ziming Liu, Massachusetts Institute of Technology

研究人员在相对简单的科学任务上测试了他们的KAN。在一些实验中，他们采用了简单的物理定律，例如两个相对论速度物体相互通过的速度。他们使用这些方程来生成输入输出数据点，然后，对于每个物理函数，在一些数据上训练一个网络，并在其余数据上进行测试。他们发现，增加KAN的大小比增加MLP的大小更快地提高了它们的性能。在求解偏微分方程时，KAN的精度是MLP的100倍，MLP的参数是KAN的100倍。

在另一个实验中，他们训练网络根据节点的其他属性预测拓扑节点的一个属性，称为它们的签名。MLP使用约300000个参数实现了78%的测试准确率，而KAN仅使用约200个参数就实现了81.6%的测试准确度。

更重要的是，研究人员可以直观地绘制出KAN，并查看激活函数的形状以及每个连接的重要性。无论是手动还是自动，它们都可以削减弱连接，并用更简单的激活函数（如正弦或指数函数）替换一些激活函数。然后，他们可以将整个KAN总结为一个直观的单行函数（包括所有组件激活函数），在某些情况下可以完美地重建创建数据集的物理函数。

“未来，我们希望它能成为日常科学研究的有用工具（https://spectrum.ieee.org/ai-for-science），”麻省理工学院的计算机科学家、该论文的第一作者Ziming Liu说，“给定一个我们不知道如何解释的数据集，我们只需将其交给KAN，它就可以为你生成一些假设（https://www.nature.com/articles/d41586-023-03596-0）。你只需盯着大脑（KAN图），如果你愿意，你甚至可以对它进行手术。这就像一个外星生命，从不同的角度看待事物，但对人类来说也是可以理解的。”

数十篇论文已经引用了KAN的预印本。“我看到它的那一刻似乎非常激动人心，”阿根廷圣安德烈斯大学计算机科学本科生Alexander Bodner说。在一周内，他和三位同学将KAN与卷积神经网络（CNN）相结合，卷积神经网络是一种流行的图像处理架构。他们测试了卷积KAN对手写数字或衣服碎片进行分类的能力（https://arxiv.org/abs/2406.13155）。最好的一个与传统CNN的性能大致相当（两个网络在数字上的准确率均为99%，在服装上的准确度均为90%），但使用的参数减少了约60%。数据集很简单，但Bodner说，其他具有更强计算能力的团队已经开始扩大网络规模。其他人正在将KAN与transformers相结合，transformers是一种在大型语言模型中流行的架构。

KAN的一个缺点是每个参数的训练时间更长，部分原因是它们无法利用GPU。但他们需要更少的参数。Liu指出，即使KAN不取代处理图像和语言的巨型CNN和转换器，在许多较小规模的物理问题上，训练时间也不会成为问题。他正在研究如何让专家将他们的先验知识插入到KANs中——比如通过手动选择激活函数——并使用简单的界面轻松地从中提取知识。他说，有一天，KAN可以帮助物理学家发现高温超导体或控制核聚变的方法（https://spectrum.ieee.org/tag/superconductors）。

微信号｜IEEE电气电子工程师学会

新浪微博｜IEEE中国

· IEEE电气电子工程师学会 ·

往

期

推

荐

后量子密码学之路

VR和元宇宙的安全性

识别深度伪造

对人类意识的重视回归网络安全视野

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

IEEE电气电子工程师学会 IEEE是全球最大的专业技术协会之一，一直致力于推动电气电子技术在理论方面的发展和应用方面的进步。IEEE在全球160多个国家有超过四十万名会员。

进入专栏

文章：1879篇粉丝：30人

 私信

一种新型的神经网络更具可解释性

最近文章

热门文章

推荐

最新资讯