点击蓝字 关注我们
SUBSCRIBE to US
Getty/Yuichiro Chino
科学家在现有的核苷酸字母表中增加了七个新字母,为数据存储容量的极限水平打开了大门。
在过去几年中,人类创造的数据超过了历史上所有数据的总和——产出水平惊人,且没有放缓的迹象。但我们要把这些都放在哪里呢?
尽管科学家们在不断增加硬盘大小以保存人类的信息,而且他们中的许多人认为这可以无限期地完成,但一些人认为,这些努力最终将以我们生成数据的指数速度被超越。为了应对这种担忧,科学家们一直在寻找一种相当独特的解决方案——将文件、照片和文档存储在大自然自己的信息数据库:DNA上。
DNA既庞大又精简,足以在超小的空间中包含深不可测的数据量。毕竟,双螺旋链保护着我们身体的整个蓝图,而它们藏在只有10微米宽的细胞核内。此外,DNA天然丰富,可以承受地球上的极端恶劣条件。科学家甚至可以从几百年前的DNA中提取基因信息。
贝克曼高级科学技术研究所的研究员Kasra Tabatabaei在一份声明中说:“每天,互联网上都会产生数以千兆字节的数据。而只需一克DNA就足以存储这些数据。这就是DNA作为存储介质的密度。”
Tabatabaei是上个月出版的《纳米》快报上发表的一项新研究的合著者,该研究很可能将DNA数据存储概念推向更高的水平。从本质上说,该研究团队是第一个人工扩展DNA字母表的团队,它可以提供巨大的存储容量,并容纳相当高水平的数字数据。
来回顾一下DNA的概念。
DNA用四种叫做核苷酸的分子来编码遗传信息。有腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶,即A、G、C和T。从某种意义上说,DNA有一个四个字母的字母表,不同的字母组合代表不同的数据位。仅凭这四个字母,大自然就可以对每一个生物的基因信息进行编码。因此,理论上,我们也应该能够用这组字母存储大量数字数据。但如果我们的字母表更长呢?想必,这会给我们更大的容量。
按照这一思路,新研究团队人为地在DNA序列中添加了七个新字母。“想象一下英语字母表,”Tabatabei说,“如果只有四个字母可以使用,你只能创造这么多的单词。如果你有完整的字母表,你可以产生无限的单词组合。DNA也是如此。”
此外,为了确保编码在这11个字母中的信息可以根据需要进行反馈,研究人员还发明了一种新的机制,可以精确地读回合成DNA的数据。该系统使用深度学习算法和人工智能来区分人造DNA字母和自然DNA字母,并将所有东西彼此区分开来。
总而言之,它提供了一个非常清晰的DNA字母组合读数,从而揭示了隐藏在里面的所有信息。
“我们尝试了77种不同的11种核苷酸组合,我们的方法能够完美地区分它们,”伊利诺伊大学厄本那香槟分校的研究生Chao Pan和这项研究的一位合著者在一份声明中说,“作为我们识别不同核苷酸方法的一部分,深度学习框架是通用的,这使我们的方法能够推广到许多其他应用。”
DNA并不是唯一一种保存复合数据的新兴创新方法。例如,哈佛大学的一个研究团队正在研究使用氖染料对宝贵信息进行编码。Tabatabaei说:“DNA是自然界原始的数据存储系统。我们可以用它存储任何类型的数据:图像、视频、音乐——任何东西。”
微信号|IEEE电气电子工程师
新浪微博|IEEE中国
· IEEE电气电子工程师学会 ·
往期推荐
推荐阅读
全息技术“量子飞跃” 可用于间接医学成像等
03-1 CHARLES Q. CHOI
哈佛大学研发可广泛调谐且紧凑的太赫兹激光器即将问世
03-03 PAYAL DHAR
准粒子用于每秒产生数百万个真正的随机数
03-02 DEXTER JOHNSON
研究人员探索音乐疗法帮助中风患者康复
03-07 MICHELLE HAMPSON