·聚焦:人工智能、芯片等行业
欢迎各位客官关注、转发
前言:
DNA存储了恐龙的生物信息,科技让它重新表达。DNA存储或许也可以像我们如今用的移动硬盘一样进行现场即时存储。
DNA存储技术将有望成为下一代信息存储技术。
在大自然里,DNA负责存储遗传信息。
单个人体细胞的平均直径是5到200微米,这其中的DNA可以包含一个人全部的遗传信息:30亿对碱基。
大规模的基因组测序正在进行,随之产生的数据规模快速增长。
存储、压缩这些数据是个麻烦事,现有的技术方案看起来不太行。
据估计:人类基因组需要高达2-40EB的存储容量。
这可能超过一个世界级科技公司的云存储量,全世界苹果用户存储在谷歌云上的数据总量大约是8EB。
这8EB数据,每月存储费需要2.18亿美元。
DNA由腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、胞嘧啶(C)4个碱基构成双螺旋结构,可以保存生物体的遗传信息。
DNA存储遗传信息的原理并不复杂,它由四种核苷酸A、T、G、C组成,彼此两两对应,组成双螺旋结构。
在数字世界,所有的信息本质上是0和1组成的数据串。
想要DNA存储数字信息,简单理解,原就是将0和1的编码序列转换成核苷酸的序列。
DNA存储的优势在于密度大,大约在你眼前逗号这么大小,1立方毫米的DNA,就可以容纳9TB(1TB=1024GB)的信息。
在自然界存在的DNA中,A和T,C与G两两配对,在一条DNA中,CG与AT的存在比例基本均匀,为50%左右。
也就是说,虽然DNA的存储能力很强,但它们不得不以很多条短链的方式存在。
虽然DNA存储具有较为明显突出的优势,政策、资本等也在全方位的支持,应用的前景广阔,但商业化的进展仍然十分缓慢。
其最大屏障来自于其存储技术本身。
DNA存储数据的过程主要分为五个步骤:
①编码——将数字信息编码为DNA序列;
②合成——将序列融入实际的DNA分子;
③存储——将合成的DNA片段保存在载体或细胞中;
④访问——检索和选择性读取序列信息;
⑤解码——将测定的序列信息转换回数字信息。
在整个存储的过程中,编码与合成是DNA存储中较为关键和困难的环节。
总的来说,DNA存储的各个环节都有较多的难关需要克服,DNA存储真正意义上的走入商业市场。
2020年微软、西部数据和基因测序巨头Illumina、DNA合成初创公司TwistBioscience等联合成立了DNA数据存储联盟。
这是世界上第一个该领域的学术和产业链联盟,这个联盟希望制定技术和格式标准,最终建立一个可以通用的商业系统。
微软研究院在2015年就成立了DNA存储的项目,2021年微软开发出首个纳米级DNA存储器,能够在每个平方厘米的区域上,同时合成25X106(2650)条碱基序列。
这个新的技术把原来同时合成碱基序列的数字从个位提升到了千位。这个吞吐量,让DNA合成速度变成了每秒兆字节(MB)。
进一步发展成为主流的存储设备,还需要长时间的沉淀,才能让DNA存储技术有实质的进阶。
DNA存储在AI技术的加持下,其编码的环节效率也获得了极大地提升。
未来随着纳米技术与AI技术的加持,DNA存储的技术也会一步步解除智识的限制禁锢,逐步升级,为存储领域带来质的飞跃。
相比于目前我们常用的存储介质,如U盘、光盘、硬盘等,DNA存储具有一系列优势。
①存储密度高。每立方厘米的DNA分子可以存储大约1EB的信息,这一密度是当前存储密度最高的介质(闪存)的1000倍,是硬盘数据存储密度的百万倍。
②保存寿命长。从理论上来说,DNA数据在没有特别人工干预的情况下至少能保存千年之久。
③维护成本低。存储在DNA的数据,理论上来说通过低温冷冻或者固态封存的手段,可以长时间存储且几乎不需要维护。
④DNA存储所需要的占地也远小于传统存储介质,并且还具备数据易复制、易携带、能在生物体内存储等特点。
①读写速度太慢:以目前的技术在合成DNA时,每添加一个碱基大约需要0.1秒钟时间。保存一首高音质的MP3歌曲都需要差不多1个月时间。
②成本太高:目前合成2MB的DNA数据需要7000美元,读取数据需要2000美元,如果以DNA形式存储1GB大小的电影,编码大约需要花费358万美元。
③合成DNA的稳定性:合成DNA过程中产生的错误率对于要求确保100%真实性和完整性的数据存储指标而言是致命的问题。
但这项技术目前远未成熟,或许离真正商用还需要20年,甚至更长。
或许有可能过程中碰到一个难以突破的技术瓶颈导致中途夭折;或许过程中出现另外一项更具革命性的存储技术,比如量子存储,形成降维打击。
部分资料参考:极客公园:《你身体里的DNA,能存下整个宇宙的数据》,脑极体:《存储新图谱:DNA存储的边界与天地》
推荐阅读:
商务合作请加微信勾搭:
18948782064
请务必注明:
「姓名 + 公司 + 合作需求」