高科技
DNA储存信息来得比你想象中要快
据软件公司Domo称,2018年,谷歌每分钟进行388万次搜索,人们在YouTube上观看了433万段视频,发送了159,362,760封电子邮件,发了473,000个推特,在Instagram上发布了49,000张照片。到2020年,估计每人每秒将创造1.7MB的数据,假设世界人口为78亿,那么在一年内就会产生418ZB的数据(418亿TB的硬盘信息)。如果是这样的话,目前基于0和1的磁性或光学数据存储系统将不能持续一个世纪。此外,运行数据中心需要大量的投入。简而言之,我们即将面临严重的数据存储问题,并且随着时间的推移,问题将变得更加严重。
一种替代硬盘的方法正在发展:基于DNA的数据存储。DNA-由核苷酸A、T、C和G的长链组成,是生命储存信息的地方。数据可以按照这些字母的顺序存储,因此DNA可作为一种新的信息储存形式。目前,DNA可以被测序(读)、合成(写)和准确复制。DNA非常稳定,即便是五十万年前的一匹马的化石也可已完成全基因组测序。而且,储存它不需要太多的能量。
但它真正发光的地方是它的储存能力。DNA能够准确地存储大量的数据,其储存密度远远超过电子设备的密度。以大肠杆菌为例,根据哈佛大学乔治·丘奇(George Church)及其同事2016年在《自然材料》(Nature Materials)上发表的计算结果,其信息储存密度为一千万TB/立方厘米,在这种密度下,一个大约一米长的DNA立方体就能很好地满足目前世界上一年信息的储存需求。
DNA数据存储的前景不仅仅停留在理论层面。在2017年,哈佛大学的丘奇小组采用了CRISPR-DNA编辑技术,将一只手的图像信息记录到大肠杆菌的基因组中,其读出准确率超过90%。
华盛顿大学和微软研究院的研究人员开发了一种完全自动化的系统,用于编写、存储和读取以DNA编码的信息。包括微软和Twist Bioscience在内的许多公司都在致力于推进dna存储技术。
与此同时,一些要处理海量数据的研究人员已经开始通过DNA的方式来处理数据了。新一代测序技术可以同时读取数十亿DNA序列。有了这种能力,研究人员就可以使用条形码——用DNA序列作为分子识别“标签”——来跟踪实验结果。DNA条形码大大加快化学工程、材料科学和纳米技术等领域的研究步伐。例如,佐治亚理工学院的詹姆斯·E·达尔曼(JamesE.Dahlman)的实验室用该方法迅速确定更安全的基因疗法;另一些人则研究如何对抗耐药性和预防癌症。
DNA存储数据的挑战之一是读写成本和速度,如果要与电子存储设备竞争,其成本还需要进一步下降。即使DNA没有成为一种广泛使用的存储材料,它也几乎肯定会被用来在某些全新的领域上生成信息,并长期保存某些类型的数据。
本文译自 Scientific American,由 Mork 编辑发布。