太平洋时间 3 月 21 日 ,开创性论文《Attention Is All You Need》的作者们齐聚 GTC。这篇具有里程碑意义的论文提出了 Transformer 神经网络架构。
在本届 GTC 的 900 多场会议中,最受关注的莫过于 NVIDIA 创始人兼首席执行官黄仁勋与这篇著名研究论文七位作者的对话。这篇论文提出了一种名为 Transformer 的神经网络架构,从而改变了深度学习的发展,并推动了如今的生成式 AI 时代。
现场座无虚席,数百名参会者聆听了黄仁勋与《Attention Is All You Need》论文作者们的对话。黄仁勋谈道:“我们所处的领域如今所享有的一切都可以追溯到那一刻。”
这几位科学研究界的名人首次同台发言,回顾了他们这篇论文的发表之路。该论文自首次发表并在 NeurIPS AI 大会上展示以来,已被引用超过 10 万次。他们还谈到了各自开展的最新项目,并就生成式 AI 领域的未来发展方向发表了见解。
这几位合著者最初都是谷歌的研究人员,如今他们已在 AI 领域各展所长,其中许多人更是创立了自己的 AI 公司。
黄仁勋表示:“整个行业都对你们的这一成就心怀感激。”
从左至右:Lukasz Kaiser、Noam Shazeer、Aidan Gomez、黄仁勋、Llion Jones、Jakob Uszkoreit、Ashish Vaswani 和 Illia Polosukhin。
Transformer 模型的起源
该研究团队最初想要突破递归神经网络(RNN)的局限性,这种网络是当时最先进的语言数据处理技术。
Character.AI 联合创始人兼首席执行官 Noam Shazeer 将 RNN 比作蒸汽机,将 Transformer 比作效率更高的内燃机。
他表示:“我们本可以在蒸汽机上完成工业革命,但那一定是条坎坷之路。相比之下,使用内燃机效果就要好得多。”
区块链公司 NEAR Protocol 联合创始人 Illia Polosukhin 打趣道:“我们现在就等着‘核聚变’了。”
这篇论文的标题来源于这样一种认识:注意力机制(神经网络的一个部件,使它们能够确定输入数据不同部分之间的关系)是该模型性能最关键的组成部分。
Sakana AI 联合创始人兼首席技术官 Llion Jones 表示:“我们最近才开始砍掉该模型的一部分,本来是想看看它会变得多糟。但出乎意料的是,它竟然变得越来越好。”
该团队给这个模型取了“Transformer”这样通用性的名字,彰显了他们的雄心壮志——建立一个能够处理和转换各种数据类型(包括文本、图像、音频、张量和生物数据)的 AI 模型。
Cohere 联合创始人兼首席执行官 Aidan Gomez 表示:“我们很早就有了这个想法,因此能看到它结出硕果真的令人感到兴奋和欣慰。现在这真的实现了。”
圣何塞会议中心座无虚席。
展望未来
研究人员认为自适应计算(即模型根据特定问题的复杂程度调整算力的使用)将成为未来 AI 模型改进的一个关键方面。
生物软件公司 Inceptive 联合创始人兼首席执行官 Jakob Uszkoreit 表示:这实际上是在特定问题上投入适当的努力和最终的精力。你不想在简单的问题上投入太多,也不想在困难的问题上花费太少。”
像 2 加 2 这样的数学问题就不该使用万亿参数的 Transformer 模型来运算,而应该在一个简单的计算器上运算。
他们还表示了对下一代 AI 模型的满满期待。
Gomez 表示:“我认为世界需要比 Transformer 更好的模型。我想我们在座所有人都希望它能被某种模型所取代,而取代它的模型将会把性能提升到一个新的高度。”
黄仁勋表示:“没有人想错过未来的 10 年。各种不可思议的新能力将不断涌现。”
对话结束时,黄仁勋向每位研究人员赠送了一块装裱好的 NVIDIA DGX-1 AI 超级计算机盖板,并签上了“你们改变了世界”的赠言。
黄仁勋向主要作者 Ashish Vaswani
赠送签名版 DGX-1 盖板。
点击“阅读原文”,免费注册线上 GTC 通行证,观看本场会议的回放。
扫描下方海报二维码,观看 NVIDIA 创始人兼首席执行官黄仁勋的 GTC 2024 主题演讲,中文字幕回放已上线,听他分享塑造未来的 AI 突破!