AlphaFold3重磅开源,诺奖级AI颠覆世界!GitHub斩获1.8k星,本地即可部署

OpenCV学堂 2024-11-14 21:59



点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 新智元 授权


【导读】六个月的争议后,诺奖级AI AlphaFold3开源了。这个在蛋白质结构预测领域掀起波澜的AI——期待它的开源推动更多科学家的大量创新。文后附有安装和运行步骤详解哦!

AlphaFold3源码终于开放了!

六个月前,AlphaFold3横空出世震撼了整个学术界。AlphaFold的开发人也凭借它在上个月赢得了诺贝尔化学奖。

然而,这个诺奖级AI的「不开源」一直引起学界的不满。谷歌DeepMind只推出了一个免费研究平台「AlphaFold Server」,而且该服务有每日的次数限制。相比于开源的AlphaFold2来说,这种使用方式缺失了很多自由度。

好在它现在终于开源了!开源后,生化医药的科学家们可以在本地部署AlphaFold3,极大地缩短了新药、疫苗等研发进程。

现在,任何人都可以下载AlphaFold3软件代码并进行非商业使用,但目前只有学术背景的科学家可申请访问训练权重。

GitHub上的AlphaFold3开源项目代码目前已斩获1.8k星。

开源项目:https://github.com/google-deepmind/alphafold3

AlphaFold3的「效仿者」们

在过去的几个月中,不少公司都依靠AlphaFold3论文中的伪代码,争相发布了各自受到AlphaFold3启发的类似模型。

比如,获得OpenAI投资的AI生物初创Chai Discovery,就在9月发布了用于分子结构预测的新型多模态基础模型Chai-1,并附带了一份技术报告,比较了Chai-1与AlphaFold等模型的性能。

官网地址:https://www.chaidiscovery.com/

另一家位于美国旧金山的公司Ligo Biosciences则发布了一个无使用限制的AlphaFold3版本。但它尚未具备完整的功能,比如模拟药物和蛋白质以外分子的能力。

项目地址:https://github.com/Ligo-Biosciences/AlphaFold3

其他团队也正在开发没有使用限制的AlphaFold3版本:AlQuraishi希望在年底前推出一个名为OpenFold3的完全开源模型。这将使制药公司能够使用专有数据(例如结合不同药物的蛋白质结构)重新训练模型,从而有可能提高性能。

开源的重要性


过去一年里,许多公司发布了新的生物AI模型,这些公司对开放性采取了不同的态度。

威斯康星大学麦迪逊分校的计算生物学家Anthony Gitter对盈利性公司加入他的领域没有异议——只要他们在期刊和预印本服务器上分享工作时遵循科学界的标准。

「我和其他人希望盈利性公司们也分享关于如何进行预测的信息,并以我们可以审查的方式发布AI模型和代码,」Gitter补充道,「我的团队不会基于无法审查的工具进行构建和使用。」

DeepMind科学AI负责人Pushmeet Kohli表示,几种AlphaFold3复制品的出现表明,即使没有开源代码,该模型也是可复现的。

他补充说,未来他希望看到更多关于出版规范的讨论,因为这一领域越来越多地由学术界和企业研究人员共同参与。

此前,AlphaFold2的开源推动了其他科学家的大量创新。

例如,最近一次蛋白质设计竞赛的获胜者使用该AI工具设计出能够结合癌症靶标的新蛋白质。

AlphaFold项目的负责人Jumper最喜欢的一个AlphaFold2创新,是一个团队使用该工具识别出一种帮助精子附着在卵细胞上的关键蛋白。

Jumper迫不及待地想看到在分享AlphaFold3后出现这样的惊喜。

安装和运行

安装AlphaFold3需要一台运行Linux的机器;AlphaFold3不支持其他操作系统。

完整安装需要多达1TB的磁盘空间来存储基因数据库(建议使用SSD存储)以及一块具有计算能力8.0或更高的 NVIDIA GPU(具有更多内存的GPU可以预测更大的蛋白质结构)。

经过验证,单个NVIDIA A100 80 GB或NVIDIA H100 80 GB可以适配最多5120个token的输入。在NVIDIA A100和H100 GPU上的数值准确性也已被验证。

尤其是对于较长的目标,基因搜索阶段可能会消耗大量RAM——建议至少使用64GB的RAM运行。

配置步骤:
1. 在GCP上配置机器
2. 安装Docker
3. 为A100安装NVIDIA驱动程序
4. 获取基因数据库
5. 获取模型参数

6. 构建AlphaFold3 Docker容器或Singularity镜像

获取AlphaFold3源代码

通过git下载AlphaFold3的代码库:

git clone https://github.com/google-deepmind/alphafold3.git

获取基因数据库

此步骤需要「curl」和「zstd」。

AlphaFold3需要多个基因(序列)蛋白质和RNA数据库来运行:
- BFD small
- MGnify
- PDB(mmCIF格式的结构)
- PDB seqres
- UniProt
- UniRef90
- NT
- RFam

- RNACentral

Python程序「fetch_databases.py」可以用来下载和设置所有这些数据库。

建议在「screen」或「tmux」会话中运行以下命令,因为下载和解压数据库需要一些时间。完整数据库的总下载大小约为252GB,解压后的总大小为630GB。

cd alphafold3  # Navigate to the directory with cloned AlphaFold3 repository.python3 fetch_databases.py --download_destination=
该脚本从托管在GCS上的镜像下载数据库,所有版本与AlphaFold3论文中使用的相同。

脚本完成后,应该有以下目录结构:

pdb_2022_09_28_mmcif_files.tar  # ~200k PDB mmCIF files in this tar.bfd-first_non_consensus_sequences.fastamgy_clusters_2022_05.fant_rna_2023_02_23_clust_seq_id_90_cov_80_rep_seq.fastapdb_seqres_2022_09_28.fastarfam_14_9_clust_seq_id_90_cov_80_rep_seq.fastarnacentral_active_seq_id_90_cov_80_linclust.fastauniprot_all_2021_04.fauniref90_2022_05.fa

获取模型参数

访问AlphaFold3模型参数需要向Google DeepMind申请并获得授权。

数据管线

数据管线的运行时间(即基因序列搜索和模板搜索)可能会因输入的大小、找到的同源序列数量以及可用的硬件(磁盘速度尤其会影响基因搜索的速度)而显著变化。

如果想提高性能,建议提高磁盘速度(例如通过利用基于RAM的文件系统),或增加可用的CPU核心并增加并行处理。

此外,请注意,对于具有深度MSA的序列,Jackhmmer或Nhmmer可能需要超出推荐的64 GB RAM的大量内存。

模型推理

AlphaFold3论文的补充信息中的表8提供了在配置为运行在16个NVIDIA A100上时的AlphaFold3的无需编译的推理时间,每个设备具有40GB的内存。

相比之下,该存储库支持在单个NVIDIA A100上运行AlphaFold3,具有80GB内存,并在配置上进行了优化以最大化吞吐量。

下表中使用GPU秒(即使用16个A100时乘以16)比较了这两种设置的无需编译的推理时间。该存储库中的设置在所有token大小上效率更高(提高至少2倍),表明其适合高吞吐量应用。

硬件要求

AlphaFold3正式支持以下配置,并已对其进行了广泛的数值准确性和吞吐量效率测试:
- 1 NVIDIA A100(80GB)

- 1 NVIDIA H100(80GB)

通过以下配置更改,AlphaFold3可以在单个NVIDIA A100 (40GB) 上运行:
1. 启用统一内存。

2. 调整model_config.py中的pair_transition_shard_spec:

pair_transition_shard_spec: Sequence[_Shape2DType] = (      (2048, None),      (3072, 1024),      (None, 512),  )
虽然数值上准确,但由于可用内存较少,因此与NVIDIA A100 (80GB) 的设置相比,该配置的吞吐量会较低。

虽然也可以在单个NVIDIA V100上使用run_alphafold.py中的--flash_attention_implementation=xla来运行长度最多为1280 token的AlphaFold3,但此配置尚未经过数值准确性或吞吐量效率的测试,因此请谨慎操作。

参考资料:
https://www.nature.com/articles/d41586-024-03708-4

OpenCV4系统化学习


深度学习系统化学习

推荐阅读

OpenCV4.8+YOLOv8对象检测C++推理演示

ZXING+OpenCV打造开源条码检测应用

攻略 | 学习深度学习只需要三个月的好方法

三行代码实现 TensorRT8.6 C++ 深度学习模型部署

实战 | YOLOv8+OpenCV 实现DM码定位检测与解析

对象检测边界框损失 – 从IOU到ProbIOU

初学者必看 | 学习深度学习的五个误区


OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论
  • 学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&
    youyeye 2024-11-30 14:30 63浏览
  • 学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&
    youyeye 2024-11-29 14:30 118浏览
  • By Toradex胡珊逢简介嵌入式领域的部分应用对安全、可靠、实时性有切实的需求,在诸多实现该需求的方案中,QNX 是经行业验证的选择。在 QNX SDP 8.0 上 BlackBerry 推出了 QNX Everywhere 项目,个人用户可以出于非商业目的免费使用 QNX 操作系统。得益于 Toradex 和 QNX 的良好合作伙伴关系,用户能够在 Apalis iMX8QM 和 Verdin iMX8MP 模块上轻松测试和评估 QNX 8 系统。下面将基于 Apalis iMX8QM 介
    hai.qin_651820742 2024-11-29 15:29 150浏览
  • 在现代科技浪潮中,精准定位技术已成为推动众多关键领域前进的核心力量。虹科PCAN-GPS FD 作为一款多功能可编程传感器模块,专为精确捕捉位置和方向而设计。该模块集成了先进的卫星接收器、磁场传感器、加速计和陀螺仪,能够通过 CAN/CAN FD 总线实时传输采样数据,并具备内部存储卡记录功能。本篇文章带你深入虹科PCAN-GPS FD的技术亮点、多场景应用实例,并展示其如何与PCAN-Explorer6软件结合,实现数据解析与可视化。虹科PCAN-GPS FD虹科PCAN-GPS FD的数据处
    虹科汽车智能互联 2024-11-29 14:35 149浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 60浏览
  • 艾迈斯欧司朗全新“样片申请”小程序,逾160种LED、传感器、多芯片组合等产品样片一触即达。轻松3步完成申请,境内免费包邮到家!本期热荐性能显著提升的OSLON® Optimal,GF CSSRML.24ams OSRAM 基于最新芯片技术推出全新LED产品OSLON® Optimal系列,实现了显著的性能升级。该系列提供五种不同颜色的光源选项,包括Hyper Red(660 nm,PDN)、Red(640 nm)、Deep Blue(450 nm,PDN)、Far Red(730 nm)及Ho
    艾迈斯欧司朗 2024-11-29 16:55 157浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 57浏览
  • 国产光耦合器正以其创新性和多样性引领行业发展。凭借强大的研发能力,国内制造商推出了适应汽车、电信等领域独特需求的专业化光耦合器,为各行业的技术进步提供了重要支持。本文将重点探讨国产光耦合器的技术创新与产品多样性,以及它们在推动产业升级中的重要作用。国产光耦合器创新的作用满足现代需求的创新模式新设计正在满足不断变化的市场需求。例如,高速光耦合器满足了电信和数据处理系统中快速信号传输的需求。同时,栅极驱动光耦合器支持电动汽车(EV)和工业电机驱动器等大功率应用中的精确高效控制。先进材料和设计将碳化硅
    克里雅半导体科技 2024-11-29 16:18 159浏览
  • 光耦合器作为关键技术组件,在确保安全性、可靠性和效率方面发挥着不可或缺的作用。无论是混合动力和电动汽车(HEV),还是军事和航空航天系统,它们都以卓越的性能支持高要求的应用环境,成为现代复杂系统中的隐形功臣。在迈向更环保技术和先进系统的过程中,光耦合器的重要性愈加凸显。1.混合动力和电动汽车中的光耦合器电池管理:保护动力源在电动汽车中,电池管理系统(BMS)是最佳充电、放电和性能监控背后的大脑。光耦合器在这里充当守门人,将高压电池组与敏感的低压电路隔离开来。这不仅可以防止潜在的损坏,还可以提高乘
    腾恩科技-彭工 2024-11-29 16:12 117浏览
  • 国产光耦合器因其在电子系统中的重要作用而受到认可,可提供可靠的电气隔离并保护敏感电路免受高压干扰。然而,随着行业向5G和高频数据传输等高速应用迈进,对其性能和寿命的担忧已成为焦点。本文深入探讨了国产光耦合器在高频环境中面临的挑战,并探索了克服这些限制的创新方法。高频性能:一个持续关注的问题信号传输中的挑战国产光耦合器传统上利用LED和光电晶体管进行信号隔离。虽然这些组件对于标准应用有效,但在高频下面临挑战。随着工作频率的增加,信号延迟和数据保真度降低很常见,限制了它们在电信和高速计算等领域的有效
    腾恩科技-彭工 2024-11-29 16:11 106浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 58浏览
  • 《高速PCB设计经验规则应用实践》+PCB绘制学习与验证读书首先看目录,我感兴趣的是这一节;作者在书中列举了一条经典规则,然后进行详细分析,通过公式推导图表列举说明了传统的这一规则是受到电容加工特点影响的,在使用了MLCC陶瓷电容后这一条规则已经不再实用了。图书还列举了高速PCB设计需要的专业工具和仿真软件,当然由于篇幅所限,只是介绍了一点点设计步骤;我最感兴趣的部分还是元件布局的经验规则,在这里列举如下:在这里,演示一下,我根据书本知识进行电机驱动的布局:这也算知行合一吧。对于布局书中有一句:
    wuyu2009 2024-11-30 20:30 88浏览
  • 在电子技术快速发展的今天,KLV15002光耦固态继电器以高性能和强可靠性完美解决行业需求。该光继电器旨在提供无与伦比的电气隔离和无缝切换,是现代系统的终极选择。无论是在电信、工业自动化还是测试环境中,KLV15002光耦合器固态继电器都完美融合了效率和耐用性,可满足当今苛刻的应用需求。为什么选择KLV15002光耦合器固态继电器?不妥协的电压隔离从本质上讲,KLV15002优先考虑安全性。输入到输出隔离达到3750Vrms(后缀为V的型号为5000Vrms),确保即使在高压情况下,敏感的低功耗
    克里雅半导体科技 2024-11-29 16:15 119浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 71浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦