Llama提速500%!谷歌美女程序员手搓矩阵乘法内核

OpenCV学堂 2024-04-09 22:51



点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 新智元 授权


【导读】近日,天才程序员Justine Tunney发推表示自己更新了Llamafile的代码,通过手搓84个新的矩阵乘法内核,将Llama的推理速度提高了500%!

谷歌的美女程序员,将Llama的推理速度提高了500%!

近日,天才程序员Justine Tunney发推表示自己更新了Llamafile的代码,

她重写了84个新的矩阵乘法内核,使得Llamafile可以更快地读取提示和图像。

与llama.cpp相比,新的Llamafile在CPU上的推理速度提升了30%到500%。

其中,ARMv8.2+(如RPI 5)、Intel(如Alderlake)和AVX512(如Zen 4)计算机的改进最为显著。

另外,对于适合L2缓存的矩阵,新的内核比MKL快2倍!

Justine Tunney表示:负责MKL的大家,你们有事做了!

毕竟,由微软,英特尔,TI,AMD,HPE,Oracle,Huawei,Facebook,ARM和National Science Foundation资助的BLIS,作为最强大的开源BLAS,输了就太没面子了!

Any time somebody outside Intel beats MKL by a nontrivial amount, I report it to the MKL team. It is fantastic for any open-source project to get within 10% of MKL... [T]his is why Intel funds BLIS development.


每当英特尔以外的人以不小的幅度击败MKL时,我都会向MKL团队报告。对于任何开源项目,超过MKL 10%以内就已经非常厉害了......这就是英特尔为BLIS开发提供资金的原因。

跨平台的「羊驼」

Llamafile作为一个本地LLM项目,诞生于去年11月,由Justine Tunney与Mozilla团队合作开发。

他们使用Cosmopolitan Libc,将llama.cpp打包为一个跨平台的单个二进制文件,让「羊驼」可以在基于AMD64和ARM64的六个操作系统上运行。

而且在GPU短缺的情况下,Llamafile可以不需要昂贵的CUDA内核,——家里的旧CPU,只要性能还行,再加一点RAM就足够了,很好地保护了大家的钱包。

项目地址:https://github.com/Mozilla-Ocho/llamafile/releases

Llamafile代码可以在GitHub上找到,使用C++编写的,没有外部依赖,可以在Linux、macOS、Windows、FreeBSD,甚至SerenityOS上编译。

而且,Justine Tunney并没有就此止步。她已经在努力支持新的数据格式,比如FP16和BF16,以进一步减少内存占用,——她甚至在Raspberry Pi上成功运行了TinyLlama!

性能提升

老惠普

Justine Tunney最开始尝试LLM时,用的是下面这台简陋的HP主机,运行Alpine,机械硬盘、慢速RAM、AVX2处理器、没有 GPU。

HP Intel® Core™ i9-9900 ($439) w/ 2200 MT/s RAM

出于对llama.cpp的喜爱,Justine Tunney与人合作为其引入了mmap()支持,使得权重可以立即加载,只使用原来一半的RAM。

之后,Justine又花了很长的时间来优化代码,让我来看一下改进后的效果:

在Skylake上,llamafile实现了2倍的加速,llama.cpp也获得了50%的性能提升。

到目前为止,Justine为q8_0、f16、q4_1、q4_0和f32数据类型编写了优化的内核。

树莓派

最新版的树莓派不仅提升了主频,还引入了对ARMv8.2 dotprod 和fp16算术ISA的支持,仅这两个功能就让llama.cpp在f16权重上实现了10倍性能提升。

因为树莓派的两个CPU都有32个矢量寄存器,Justine使用为AVX512编写的内核,使推理速度又提高了2倍。

不过值得注意的是,新的ARMv8.2 fp16 ISA可能会引入比平时更多的错误,因为它会导致llamafile使用fp16。因此,Q8_0权重实际上的效果更好,因为它使用dotprod ISA。

游戏主机

在Alderlake CPU上,Justine将float16的性能提高了五倍。

与ARMv8.2不同,Alderlake能够在不引入舍入错误的情况下做到这一点,因为内核在内部使用float32计算类型。

另外让人吃惊的是,当涉及到小工作负载时,这个芯片甚至能够在CUDA开始之前就完成任务。

苹果

Mac Studio,作为llama.cpp开发人员最关心的硬件平台,想要在这里提升性能比较困难。

另一个问题则是苹果自身的封闭环境:

M2 Ultra将RAM DIMM放在了CPU内部,使得token生成等受延迟限制的操作速度更快,因为CPU不再需要打「长途电话」了。

我们可以看到,与便宜得多的英特尔计算机相比,M2 Ultra仅通过ARM ISA暴露了30%的计算能力。

如果开发者想访问更多内容,则需要通过苹果的专有框架,例如Metal和Accelerate。

AMD

虽然llamafile非常关心帮助缺乏GPU的人,但也为另外1%的人提供了一流的体验。

AMD Ryzen Threadripper PRO 7995WX,通过花费10,000美元左右,你会得到96个基于Zen4架构的AVX512内核。

尽管价格只有M2 Ultra的两倍,但7995WX x86 ISA提供的原始计算能力是M2 Ultra ARM ISA的7倍,token生成速度几乎相同,这可能要归功于384M的L3缓存。

通过Justine的优化,现在可以在Zen4上以2.8倍的速度运行LLaMA。

天才程序员

Justine Tunney出生于1984年,14岁就开始帮别的黑客开发软件,当时的绰号是「Oogle」。

我们来浅浅地看一下她这些年的一些工作:

RedBean

一个web服务器,神奇的是可以跨平台在6种操作系统上运行!

这可不是Java那种叠了一层虚拟机的机制,Justine开发了一种叫做APE(Acctually Portable Executbale)的文件格式,可以在任何x86-64的操作系统上执行。

「一次编译,处处运行」——Java:嗯?这不是我吗?

cosmopolitan libc

为了能够跨平台调用外部程序,比如c标准库,Justine直接手搓了一个libc,在各种平台上实现了所有需要的核心操作:

看一下上面的工作量,实在是太炸裂了,而且一般人就算想肝,没有实力也是不可能的。

sectorLisp

仅有512个字节,最小的Lisp实现,可通过BIOS引导启动:

除了上面这几个,还有诸如Blinkenlights、RoseHub等天才项目,这里不再一一列举。

对于这番成就,有网友感叹道:

Every time I read something by Justine Tunney, I am continually reminded of my mediocrity.

对于之前提到的mmap工作,网友评价:「有Fabrice Bellard之风」。

Justine Tunney is a true genius. Similar to Fabrice Bellard, a truly unique mind.


Justine or Fabrice are the true 10x engineers, their output is world class and they are much rarer than any hiring article about these gurus want us to believe. With Justine's work, I feel  would need to be more than a 1x engineer myself just to find the time to play with all of her creations.

2012年,Justine Tunney开始在谷歌工作,并负责了一些知名项目的关键部分。

比如大名鼎鼎的TensorFlow,Tunney为这个项目做出了许多贡献,包括用于存储数据的摘要系统。

Bazel是谷歌从Make演变而来的PB级构建系统,Tunney的主要贡献是下载器代码部分,用于自动化运营商级公共工件传输。

Nomulus是一项用于管理顶级域名的服务,是谷歌的第一个开源生产服务。Tunney负责为其编写注册表数据托管系统。

参考资料:
https://twitter.com/JustineTunney/status/1774621341473489024

OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论 (0)
  • 二位半 5线数码管的驱动方法这个2位半的7段数码管只用5个管脚驱动。如果用常规的7段+共阳/阴则需要用10个管脚。如果把每个段看成独立的灯。5个管脚来点亮,任选其中一个作为COM端时,另外4条线可以单独各控制一个灯。所以实际上最多能驱动5*4 = 20个段。但是这里会有一个小问题。如果想点亮B1,可以让第3条线(P3)置高,P4 置低,其它阳极连P3的灯对应阴极P2 P1都应置高,此时会发现C1也会点亮。实际操作时,可以把COM端线P3设置为PP输出,其它线为OD输出。就可以单独控制了。实际的驱
    southcreek 2025-05-07 15:06 658浏览
  • 后摄像头是长这个样子,如下图。5孔(D-,D+,5V,12V,GND),说的是连接线的个数,如下图。4LED,+12V驱动4颗LED灯珠,给摄像头补光用的,如下图。打开后盖,发现里面有透明白胶(防水)和白色硬胶(固定),用合适的工具,清理其中的胶状物。BOT层,AN3860,Panasonic Semiconductor (松下电器)制造的,Cylinder Motor Driver IC for Video Camera,如下图。TOP层,感光芯片和广角聚焦镜头组合,如下图。感光芯片,看着是玻
    liweicheng 2025-05-07 23:55 562浏览
  • 随着智能驾驶时代到来,汽车正转变为移动计算平台。车载AI技术对存储器提出新挑战:既要高性能,又需低功耗和车规级可靠性。贞光科技代理的紫光国芯车规级LPDDR4存储器,以其卓越性能成为国产芯片产业链中的关键一环,为智能汽车提供坚实的"记忆力"支持。作为官方授权代理商,贞光科技通过专业技术团队和完善供应链,让这款国产存储器更好地服务国内汽车厂商。本文将探讨车载AI算力需求现状及贞光科技如何通过紫光国芯LPDDR4产品满足市场需求。 车载AI算力需求激增的背景与挑战智能驾驶推动算力需求爆发式
    贞光科技 2025-05-07 16:54 241浏览
  • 飞凌嵌入式作为龙芯合作伙伴,隆重推出FET-2K0300i-S全国产自主可控工业级核心板!FET-2K0300i-S核心板基于龙芯2K0300i工业级处理器开发设计,集成1个64位LA264处理器,主频1GHz,提供高效的计算能力;支持硬件ECC;2K0300i还具备丰富的连接接口USB、SDIO、UART、SPI、CAN-FD、Ethernet、ADC等一应俱全,龙芯2K0300i支持四路CAN-FD接口,具备良好的可靠性、实时性和灵活性,可满足用户多路CAN需求。除性价比超高的国产处理器外,
    飞凌嵌入式 2025-05-07 11:54 116浏览
  • 这款无线入耳式蓝牙耳机是长这个样子的,如下图。侧面特写,如下图。充电接口来个特写,用的是卡座卡在PCB板子上的,上下夹紧PCB的正负极,如下图。撬开耳机喇叭盖子,如下图。精致的喇叭(HY),如下图。喇叭是由电学产生声学的,具体结构如下图。电池包(AFS 451012  21 12),用黄色耐高温胶带进行包裹(安规需求),加强隔离绝缘的,如下图。451012是电池包的型号,聚合物锂电池+3.7V 35mAh,详细如下图。电路板是怎么拿出来的呢,剪断喇叭和电池包的连接线,底部抽出PCB板子
    liweicheng 2025-05-06 22:58 694浏览
  • 温度传感器的工作原理依据其类型可分为以下几种主要形式:一、热电阻温度传感器利用金属或半导体材料的电阻值随温度变化的特性实现测温:l ‌金属热电阻‌(如铂电阻 Pt100、Pt1000):高温下电阻值呈线性增长,稳定性高,适用于工业精密测温。l ‌热敏电阻‌(NTC/PTC):NTC 热敏电阻阻值随温度升高而下降,PTC 则相反;灵敏度高但线性范围较窄,常用于电子设备温控。二、热电偶传感器基于‌塞贝克效应‌(Seebeck effect):两种不同
    锦正茂科技 2025-05-09 13:31 312浏览
  • UNISOC Miracle Gaming奇迹手游引擎亮点:• 高帧稳帧:支持《王者荣耀》等主流手游90帧高画质模式,连续丢帧率最高降低85%;• 丝滑操控:游戏冷启动速度提升50%,《和平精英》开镜开枪操作延迟降低80%;• 极速网络:专属游戏网络引擎,使《王者荣耀》平均延迟降低80%;• 智感语音:与腾讯GVoice联合,弱网环境仍能保持清晰通话;• 超高画质:游戏画质增强、超级HDR画质、游戏超分技术,优化游戏视效。全球手游市场规模日益壮大,游戏玩家对极致体验的追求愈发苛刻。紫光展锐全新U
    紫光展锐 2025-05-07 17:07 403浏览
  • 硅二极管温度传感器是一种基于硅半导体材料特性的测温装置,其核心原理是利用硅二极管的电学参数(如正向压降或电阻)随温度变化的特性实现温度检测。以下是其工作原理、技术特点及典型应用:一、工作原理1、‌PN结温度特性‌硅二极管由PN结构成,当温度变化时,其正向电压 VF与温度呈线性负相关关系。例如,温度每升高1℃,VF约下降2 mV。2、‌电压—温度关系‌通过jing确测量正向电压的微小变化,可推算出环境温度值。部分型号(如SI410)在宽温域内(如1.4 K至475 K)仍能保持高线性度。
    锦正茂科技 2025-05-09 13:52 329浏览
  • 在过去的很长一段时间里,外卖市场呈现出美团和饿了么双寡头垄断的局面。美团凭借先发优势、强大的地推团队以及精细化的运营策略,在市场份额上长期占据领先地位。数据显示,截至2024年上半年,美团外卖以68.2%的市场份额领跑外卖行业,成为当之无愧的行业老大。其业务广泛覆盖,从一线城市的繁华商圈到二三线城市的大街小巷,几乎无处不在,为无数消费者提供便捷的外卖服务。饿了么作为阿里本地生活服务的重要一环,依托阿里强大的资金和技术支持,也在市场中站稳脚跟,以25.4%的份额位居第二。尽管市场份额上与美团有一定
    用户1742991715177 2025-05-06 19:43 134浏览
  • 文/郭楚妤编辑/cc孙聪颖‍相较于一众措辞谨慎、毫无掌舵者个人风格的上市公司财报,利亚德的财报显得尤为另类。利亚德光电集团成立于1995年,是一家以LED显示、液晶显示产品设计、生产、销售及服务为主业的高新技术企业。自2016年年报起,无论业绩优劣,董事长李军每年都会在财报末尾附上一首七言打油诗,抒发其对公司当年业绩的感悟。从“三年翻番顺大势”“智能显示我第一”“披荆斩棘幸从容”等词句中,不难窥见李军的雄心壮志。2012年,利亚德(300296.SZ)在深交所创业板上市。成立以来,该公司在细分领
    华尔街科技眼 2025-05-07 19:25 512浏览
  • Matter协议是一个由Amazon Alexa、Apple HomeKit、Google Home和Samsung SmartThings等全球科技巨头与CSA联盟共同制定的开放性标准,它就像一份“共生契约”,能让原本相互独立的家居生态在应用层上握手共存,同时它并非另起炉灶,而是以IP(互联网协议)为基础框架,将不同通信协议下的家居设备统一到同一套“语义规则”之下。作为应用层上的互通标准,Matter协议正在重新定义智能家居行业的运行逻辑,它不仅能向下屏蔽家居设备制造商的生态和系统,让设备、平
    华普微HOPERF 2025-05-08 11:40 451浏览
  • 文/Leon编辑/cc孙聪颖‍《中国家族企业传承研究报告》显示,超四成“企二代” 明确表达接班意愿,展现出对家族企业延续发展的主动担当。中国研究数据服务平台(CNRDS)提供的精准数据进一步佐证:截至 2022 年,已有至少 280 家上市家族企业完成权杖交接,其中八成新任掌门人为创始人之子,凸显家族企业代际传承中 “子承父业” 的主流模式。然而,对于“企二代” 而言,接棒掌舵绝非易事。在瞬息万变的商业环境中,他们既要在白热化的市场竞争中开拓创新、引领企业突破发展瓶颈,又需应对来自父辈管理层的经
    华尔街科技眼 2025-05-06 18:17 64浏览
  • 在印度与巴基斯坦的军事对峙情境下,歼10C的出色表现如同一颗投入平静湖面的巨石,激起层层涟漪,深刻印证了“质量大于数量”这一铁律。军事领域,技术优势就是决定胜负的关键钥匙。歼10C凭借先进的航电系统、强大的武器挂载能力以及卓越的机动性能,在战场上大放异彩。它能够精准捕捉目标,迅速发动攻击,以一敌多却毫不逊色。与之形成鲜明对比的是,单纯依靠数量堆砌的军事力量,在面对先进技术装备时,往往显得力不从心。这一现象绝非局限于军事范畴,在当今社会的各个领域,“质量大于数量”都已成为不可逆转的趋势。在科技行业
    curton 2025-05-11 19:09 58浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦