1bit大模型或能解决AI的能源需求问题

IEEE电气电子工程师学会 2024-06-13 15:58 652浏览 0评论 0点赞

破解工业通信时延困局 GaN电机驱动设计“避坑”指南

点击蓝字关注我们

SUBSCRIBE to US

GETTY IMAGES

大型语言模型（Large language models），即为ChatGPT等聊天机器人提供动力的人工智能系统，正在变得越来越好，但它们也越来越大，需要更多的能量和计算能力。对于便宜、快速、环保的LLM，它们需要缩小，理想情况下要小到可以直接在手机等设备上运行。研究人员正在寻找方法来做到这一点，方法是将存储记忆的许多高精度数字四舍五入，使其仅等于1或-1。

LLM和所有神经网络一样，是通过改变人工神经元之间的连接强度来训练的。这些强度被存储为数学参数。研究人员通过降低这些参数的精度对网络进行了长期压缩，这一过程称为量化，因此它们可能会占用8或4个比特，而不是每个比特占用16个比特。现在，研究人员正在将极限推向一个极限。

如何制作1 bit LLM

一般有两种方法。一种称为训练后量化（PTQ，post-training quantization）的方法是量化全精度网络的参数。另一种方法是量化感知训练（QAT，quantization-aware training），是从头开始训练网络，使其具有低精度参数。到目前为止，PTQ更受研究人员的欢迎。

今年2月，包括苏黎世联邦理工学院的Haotong Qin、北航大学的Xianglong Liu和香港大学的Wei Huang在内的团队推出了一种名为BiLLM的PTQ方法（https://arxiv.org/abs/2402.04291）。它使用1 bit来近似网络中的大多数参数，但使用2 bit来表示一些显著的权重——那些对性能最有影响的权重。在一次测试中，该团队对Meta的LLaMa LLM的一个版本进行了二进制化，该版本具有130亿个参数。

“One-bit LLMs open new doors for designing custom hardware and systems specifically optimized for 1-bit LLMs.”

—FURU WEI, MICROSOFT RESEARCH ASIA

为了对表现进行评分，研究人员使用了一种称为阅读能力的指标，这基本上是衡量训练后的模型对接下来的每一段文本的困惑度。对于一个数据集，原始模型的困惑度约为5，BiLLM版本的得分约为15，远好于最接近的二值化竞争对手，后者得分约为37（对于困惑度，数字越低越好）。也就是说，BiLLM模型所需的内存容量大约是原始模型的十分之一。

中国哈尔滨工业大学的计算机科学家Wanxiang Che说，PTQ比QAT有几个优势。它不需要收集训练数据，也不需要从头开始训练模型，而且训练过程更稳定。另一方面，QAT有可能使模型更加准确，因为量化从一开始就被构建在模型中。

1 bit LLM在对抗更大的模型时取得成功

去年，微软亚洲研究院的Furu Wei和Shuming Ma领导的一个团队在北京创建了BitNet，这是LLM的第一个1 bit QAT方法。在篡改了网络调整参数的速率后，为了稳定训练，他们创建了比使用PTQ方法创建的LLM性能更好的LLM。它们仍然不如全精度网络，但能效大约是全精度网络的10倍。

今年2月，Wei的团队宣布了BitNet 1.58b（https://arxiv.org/abs/2402.17764），其中的参数可以等于-1、0或1，这意味着每个参数大约占用1.58位内存。具有30亿个参数的BitNet模型在各种语言任务中的表现与具有相同参数数量和训练量的全精度LLaMA模型一样好，但速度是前者的2.71倍，GPU内存减少了72%，GPU能量减少了94%。Wei称这是一个“aha moment”。此外，研究人员发现，当他们训练更大的模型时，效率优势有所提高。

今年，哈尔滨工业大学Che领导的团队发布了另一种LLM二进制化方法OneBit的预印本。OneBit结合了PTQ和QAT的元素（https://arxiv.org/abs/2402.11295）。它使用全精度预训练LLM来生成用于训练量化版本的数据。该团队的130亿参数模型在一个数据集上的困惑度得分约为9分，而具有130亿参数的LLaMA模型的困惑度得分为5分。同时，OneBit只占用了10%的内存。在定制芯片上，它可能会运行得更快。

微软的Wei表示，量化模型有多种优势。它们可以安装在更小的芯片上，在存储器和处理器之间需要更少的数据传输，并且可以实现更快的处理。不过，目前的硬件并不能充分利用这些型号。LLM通常在像Nvidia制造的GPU上运行，这些GPU使用更高的精度表示权重，并将大部分能量用于相乘。新硬件可以将每个参数原生地表示为-1或1（或0），然后简单地进行加减运算，避免乘法运算。“1 bit LLM为设计专门针对一位LLMs优化的定制硬件和系统打开了新的大门，”Wei说。

香港大学的Huang在谈到1 bit模型和处理器时说：“它们应该一起成长。但开发新硬件还有很长的路要走。”

微信号｜IEEE电气电子工程师学会

新浪微博｜IEEE中国

· IEEE电气电子工程师学会 ·

往

期

推

荐

智能家居正在变得更加智能

健康追踪器揭示的心理健康秘密

人工智能对就业的影响：是革命、进化，还是其他？

什么是通用人工智能？

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

IEEE电气电子工程师学会 IEEE是全球最大的专业技术协会之一，一直致力于推动电气电子技术在理论方面的发展和应用方面的进步。IEEE在全球160多个国家有超过四十万名会员。

进入专栏

文章：2021篇粉丝：32人

关注  私信

1bit大模型或能解决AI的能源需求问题

立即预约直播：半导体设计及工艺仿真全解析

最近文章

热门文章

推荐

最新资讯