Llama提速500%!谷歌美女程序员手搓矩阵乘法内核

OpenCV学堂 2024-04-09 22:51



点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 新智元 授权


【导读】近日,天才程序员Justine Tunney发推表示自己更新了Llamafile的代码,通过手搓84个新的矩阵乘法内核,将Llama的推理速度提高了500%!

谷歌的美女程序员,将Llama的推理速度提高了500%!

近日,天才程序员Justine Tunney发推表示自己更新了Llamafile的代码,

她重写了84个新的矩阵乘法内核,使得Llamafile可以更快地读取提示和图像。

与llama.cpp相比,新的Llamafile在CPU上的推理速度提升了30%到500%。

其中,ARMv8.2+(如RPI 5)、Intel(如Alderlake)和AVX512(如Zen 4)计算机的改进最为显著。

另外,对于适合L2缓存的矩阵,新的内核比MKL快2倍!

Justine Tunney表示:负责MKL的大家,你们有事做了!

毕竟,由微软,英特尔,TI,AMD,HPE,Oracle,Huawei,Facebook,ARM和National Science Foundation资助的BLIS,作为最强大的开源BLAS,输了就太没面子了!

Any time somebody outside Intel beats MKL by a nontrivial amount, I report it to the MKL team. It is fantastic for any open-source project to get within 10% of MKL... [T]his is why Intel funds BLIS development.


每当英特尔以外的人以不小的幅度击败MKL时,我都会向MKL团队报告。对于任何开源项目,超过MKL 10%以内就已经非常厉害了......这就是英特尔为BLIS开发提供资金的原因。

跨平台的「羊驼」

Llamafile作为一个本地LLM项目,诞生于去年11月,由Justine Tunney与Mozilla团队合作开发。

他们使用Cosmopolitan Libc,将llama.cpp打包为一个跨平台的单个二进制文件,让「羊驼」可以在基于AMD64和ARM64的六个操作系统上运行。

而且在GPU短缺的情况下,Llamafile可以不需要昂贵的CUDA内核,——家里的旧CPU,只要性能还行,再加一点RAM就足够了,很好地保护了大家的钱包。

项目地址:https://github.com/Mozilla-Ocho/llamafile/releases

Llamafile代码可以在GitHub上找到,使用C++编写的,没有外部依赖,可以在Linux、macOS、Windows、FreeBSD,甚至SerenityOS上编译。

而且,Justine Tunney并没有就此止步。她已经在努力支持新的数据格式,比如FP16和BF16,以进一步减少内存占用,——她甚至在Raspberry Pi上成功运行了TinyLlama!

性能提升

老惠普

Justine Tunney最开始尝试LLM时,用的是下面这台简陋的HP主机,运行Alpine,机械硬盘、慢速RAM、AVX2处理器、没有 GPU。

HP Intel® Core™ i9-9900 ($439) w/ 2200 MT/s RAM

出于对llama.cpp的喜爱,Justine Tunney与人合作为其引入了mmap()支持,使得权重可以立即加载,只使用原来一半的RAM。

之后,Justine又花了很长的时间来优化代码,让我来看一下改进后的效果:

在Skylake上,llamafile实现了2倍的加速,llama.cpp也获得了50%的性能提升。

到目前为止,Justine为q8_0、f16、q4_1、q4_0和f32数据类型编写了优化的内核。

树莓派

最新版的树莓派不仅提升了主频,还引入了对ARMv8.2 dotprod 和fp16算术ISA的支持,仅这两个功能就让llama.cpp在f16权重上实现了10倍性能提升。

因为树莓派的两个CPU都有32个矢量寄存器,Justine使用为AVX512编写的内核,使推理速度又提高了2倍。

不过值得注意的是,新的ARMv8.2 fp16 ISA可能会引入比平时更多的错误,因为它会导致llamafile使用fp16。因此,Q8_0权重实际上的效果更好,因为它使用dotprod ISA。

游戏主机

在Alderlake CPU上,Justine将float16的性能提高了五倍。

与ARMv8.2不同,Alderlake能够在不引入舍入错误的情况下做到这一点,因为内核在内部使用float32计算类型。

另外让人吃惊的是,当涉及到小工作负载时,这个芯片甚至能够在CUDA开始之前就完成任务。

苹果

Mac Studio,作为llama.cpp开发人员最关心的硬件平台,想要在这里提升性能比较困难。

另一个问题则是苹果自身的封闭环境:

M2 Ultra将RAM DIMM放在了CPU内部,使得token生成等受延迟限制的操作速度更快,因为CPU不再需要打「长途电话」了。

我们可以看到,与便宜得多的英特尔计算机相比,M2 Ultra仅通过ARM ISA暴露了30%的计算能力。

如果开发者想访问更多内容,则需要通过苹果的专有框架,例如Metal和Accelerate。

AMD

虽然llamafile非常关心帮助缺乏GPU的人,但也为另外1%的人提供了一流的体验。

AMD Ryzen Threadripper PRO 7995WX,通过花费10,000美元左右,你会得到96个基于Zen4架构的AVX512内核。

尽管价格只有M2 Ultra的两倍,但7995WX x86 ISA提供的原始计算能力是M2 Ultra ARM ISA的7倍,token生成速度几乎相同,这可能要归功于384M的L3缓存。

通过Justine的优化,现在可以在Zen4上以2.8倍的速度运行LLaMA。

天才程序员

Justine Tunney出生于1984年,14岁就开始帮别的黑客开发软件,当时的绰号是「Oogle」。

我们来浅浅地看一下她这些年的一些工作:

RedBean

一个web服务器,神奇的是可以跨平台在6种操作系统上运行!

这可不是Java那种叠了一层虚拟机的机制,Justine开发了一种叫做APE(Acctually Portable Executbale)的文件格式,可以在任何x86-64的操作系统上执行。

「一次编译,处处运行」——Java:嗯?这不是我吗?

cosmopolitan libc

为了能够跨平台调用外部程序,比如c标准库,Justine直接手搓了一个libc,在各种平台上实现了所有需要的核心操作:

看一下上面的工作量,实在是太炸裂了,而且一般人就算想肝,没有实力也是不可能的。

sectorLisp

仅有512个字节,最小的Lisp实现,可通过BIOS引导启动:

除了上面这几个,还有诸如Blinkenlights、RoseHub等天才项目,这里不再一一列举。

对于这番成就,有网友感叹道:

Every time I read something by Justine Tunney, I am continually reminded of my mediocrity.

对于之前提到的mmap工作,网友评价:「有Fabrice Bellard之风」。

Justine Tunney is a true genius. Similar to Fabrice Bellard, a truly unique mind.


Justine or Fabrice are the true 10x engineers, their output is world class and they are much rarer than any hiring article about these gurus want us to believe. With Justine's work, I feel  would need to be more than a 1x engineer myself just to find the time to play with all of her creations.

2012年,Justine Tunney开始在谷歌工作,并负责了一些知名项目的关键部分。

比如大名鼎鼎的TensorFlow,Tunney为这个项目做出了许多贡献,包括用于存储数据的摘要系统。

Bazel是谷歌从Make演变而来的PB级构建系统,Tunney的主要贡献是下载器代码部分,用于自动化运营商级公共工件传输。

Nomulus是一项用于管理顶级域名的服务,是谷歌的第一个开源生产服务。Tunney负责为其编写注册表数据托管系统。

参考资料:
https://twitter.com/JustineTunney/status/1774621341473489024

OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论
  • 时源芯微——RE超标整机定位与解决详细流程一、 初步测量与问题确认使用专业的电磁辐射测量设备,对整机的辐射发射进行精确测量。确认是否存在RE超标问题,并记录超标频段和幅度。二、电缆检查与处理若存在信号电缆:步骤一:拔掉所有信号电缆,仅保留电源线,再次测量整机的辐射发射。若测量合格:判定问题出在信号电缆上,可能是电缆的共模电流导致。逐一连接信号电缆,每次连接后测量,定位具体哪根电缆或接口导致超标。对问题电缆进行处理,如加共模扼流圈、滤波器,或优化电缆布局和屏蔽。重新连接所有电缆,再次测量
    时源芯微 2024-12-11 17:11 129浏览
  • 铁氧体芯片是一种基于铁氧体磁性材料制成的芯片,在通信、传感器、储能等领域有着广泛的应用。铁氧体磁性材料能够通过外加磁场调控其导电性质和反射性质,因此在信号处理和传感器技术方面有着独特的优势。以下是对半导体划片机在铁氧体划切领域应用的详细阐述: 一、半导体划片机的工作原理与特点半导体划片机是一种使用刀片或通过激光等方式高精度切割被加工物的装置,是半导体后道封测中晶圆切割和WLP切割环节的关键设备。它结合了水气电、空气静压高速主轴、精密机械传动、传感器及自动化控制等先进技术,具有高精度、高
    博捷芯划片机 2024-12-12 09:16 101浏览
  • 本文介绍瑞芯微RK3588主板/开发板Android12系统下,APK签名文件生成方法。触觉智能EVB3588开发板演示,搭载了瑞芯微RK3588芯片,该开发板是核心板加底板设计,音视频接口、通信接口等各类接口一应俱全,可帮助企业提高产品开发效率,缩短上市时间,降低成本和设计风险。工具准备下载Keytool-ImportKeyPair工具在源码:build/target/product/security/系统初始签名文件目录中,将以下三个文件拷贝出来:platform.pem;platform.
    Industio_触觉智能 2024-12-12 10:27 105浏览
  • 应用环境与极具挑战性的测试需求在服务器制造领域里,系统整合测试(System Integration Test;SIT)是确保产品质量和性能的关键步骤。随着服务器系统的复杂性不断提升,包括:多种硬件组件、操作系统、虚拟化平台以及各种应用程序和服务的整合,服务器制造商面临着更有挑战性的测试需求。这些挑战主要体现在以下五个方面:1. 硬件和软件的高度整合:现代服务器通常包括多个处理器、内存模块、储存设备和网络接口。这些硬件组件必须与操作系统及应用软件无缝整合。SIT测试可以帮助制造商确保这些不同组件
    百佳泰测试实验室 2024-12-12 17:45 107浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-12 10:13 72浏览
  • 全球智能电视时代来临这年头若是消费者想随意地从各个通路中选购电视时,不难发现目前市场上的产品都已是具有智能联网功能的智能电视了,可以宣告智能电视的普及时代已到临!Google从2021年开始大力推广Google TV(即原Android TV的升级版),其他各大品牌商也都跟进推出搭载Google TV操作系统的机种,除了Google TV外,LG、Samsung、Panasonic等大厂牌也开发出自家的智能电视平台,可以看出各家业者都一致地看好这块大饼。智能电视的Wi-Fi连线怎么消失了?智能电
    百佳泰测试实验室 2024-12-12 17:33 111浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-11 17:58 106浏览
  • 一、SAE J1939协议概述SAE J1939协议是由美国汽车工程师协会(SAE,Society of Automotive Engineers)定义的一种用于重型车辆和工业设备中的通信协议,主要应用于车辆和设备之间的实时数据交换。J1939基于CAN(Controller Area Network)总线技术,使用29bit的扩展标识符和扩展数据帧,CAN通信速率为250Kbps,用于车载电子控制单元(ECU)之间的通信和控制。小北同学在之前也对J1939协议做过扫盲科普【科普系列】SAE J
    北汇信息 2024-12-11 15:45 128浏览
  • 首先在gitee上打个广告:ad5d2f3b647444a88b6f7f9555fd681f.mp4 · 丙丁先生/香河英茂工作室中国 - Gitee.com丙丁先生 (mr-bingding) - Gitee.com2024年对我来说是充满挑战和机遇的一年。在这一年里,我不仅进行了多个开发板的测评,还尝试了多种不同的项目和技术。今天,我想分享一下这一年的故事,希望能给大家带来一些启发和乐趣。 年初的时候,我开始对各种开发板进行测评。从STM32WBA55CG到瑞萨、平头哥和平海的开发板,我都
    丙丁先生 2024-12-11 20:14 92浏览
  • 在智能化技术快速发展当下,图像数据的采集与处理逐渐成为自动驾驶、工业等领域的一项关键技术。高质量的图像数据采集与算法集成测试都是确保系统性能和可靠性的关键。随着技术的不断进步,对于图像数据的采集、处理和分析的需求日益增长,这不仅要求我们拥有高性能的相机硬件,还要求我们能够高效地集成和测试各种算法。我们探索了一种多源相机数据采集与算法集成测试方案,能够满足不同应用场景下对图像采集和算法测试的多样化需求,确保数据的准确性和算法的有效性。一、相机组成相机一般由镜头(Lens),图像传感器(Image
    康谋 2024-12-12 09:45 113浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦