这是一种永不过时的存储手段。
1895年,卢米埃尔兄弟公司(Lumiere Brothers)作为史上最早的制片公司之一,推出了全长只有50秒黑白无声电影短片《火车进站》。片中,一列火车缓缓驶入人头攒动的站台,被后世奉为划时代的标志。当时的一位观众描述称,这个例子有力地展现了“动态摄影”的魅力。时隔122年,《火车进站》又一次站到时代前沿,成为最早被存入DNA的影片之一。
纽约基因组中心和哥伦比亚大学的亚尼夫·埃利希(Yaniv Erlich)和迪娜·杰林斯基(Dina Zielinski)通过编码,将该影片存到了DNA里。同时被编入那著名的双螺旋结构的,还有一个计算机操作系统、一张照片、一份科学论文、一个计算机病毒,外加一张亚马逊礼品卡。
DNA是史上最强的存储媒介?
时下,一个1TB硬盘的重量大约有150克。而使用DNA,埃利希和杰林斯基可以在1克的DNA中,装下21.5万倍于此的数据。哪怕将全世界所有的数据都编入DNA,那也占不了多大地方,一个汽车后备箱就足够了。
用DNA存储信息并不是什么新奇之事:生命存在了多久,这个过程就进行了多久。这种分子的外形类似螺旋盘绕的楼梯,基本组成结构是四个碱基,分别为:腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)。构建地球上所有生命的指令全都时通过这些碱基的排序编写出来来。只要能将数字数据中的0和1转化为这四个字母,你就能用DNA编码几乎任何东西。
为何科学家要多此一举,用DNA来存储数据?
因为它拥有其他存储介质所不具备的优势。
DNA不占空间,而且,只要是在干冷、黑暗的环境下,它就能够长久保存。
猛犸象早在几千年前就灭绝了,但我们照样能提取它们的DNA,并加以测序。最重要的是,它那37亿年的履历足以证明一切。木简、纸张、磁带、软盘、光盘、内存芯片……人类发明的每一种存储介质,最终都无法逃避过时的命运。但DNA永远不会过时。在生命活动中,它所扮演的角色如此重要,生物学家无论如何都不会弃之不顾。测序技术会持续改进,但测序工作用不会终止。
2011年,哈佛大学的乔治·彻奇(George Church)投身DNA存储领域。他在DNA内编入了他刚出版的新书、一些图片和一个用Javascript编写的程序。一年之后,欧洲生物信息研究所的尼克·戈德曼(Nick Goldman)和伊万·伯尼(Ewan Birney)使用了更加复杂的编码系统,在彻奇的研究基础上更进一步。他们编码的内容包括:莎士比亚的所有十四行诗,马丁·路德·金《我有一个梦想》演讲的录音片段,还有詹姆斯·沃森(James Watson)和弗朗西斯·克里克(Francis Crick)有关DNA双螺旋结构的论文(PDF版),还有他们研究所的一张照片,这些通通装进了一小点DNA里。而它究竟有多小呢?当初,这些DNA被装在试管里送来时,戈德曼都没找着。还以为试管是空的。
真的好用?
不过有一个问题:DNA编码只能小段小段地进行。若有一大批数据需要编码,你就得先分段合成,得到一大堆乱糟糟的DNA片段,再拼合起来。这就很难保证片段一个都不少,所以说,这样做存在丢失数据的风险。
为克服这个难题,戈德曼和伯尼创造了一种重叠式代码,每部分数据至少编写四份DNA。就算其中一份丢失,还有三份作为备份。方法不错,但效率欠佳,而且也并不是万无一失:团队在尝试恢复文件时,就遇到不少出错的情况。“当时我就想,一定还有比这更高效、更可靠的办法。”
巧合的是,Netflix和Spotify也面临相似的问题。这些流媒体服务提供商要让数据穿越波涛汹涌的网络,片段丢失的情况在所难免,但最后必须天衣无缝地进行恢复。解决办法是采用“喷泉码”,即将数据分割成一个个小包,并达到这样一种效果:即便只抓到一个随机子集,你也能恢复出整体数据。不论丢失的是哪些部分,只要抓到的小包数量够多,你就能重构出整个文件。埃里希将其比作大型数独游戏——你只要填出其中一些格子,就能推测出其他格子里的数字。
两人采用喷泉码,开发了一种新的解码器,效率较之前提高了60%,逼近DNA信息存储密度的上限。“我们离最优配置只有几步之遥。”埃里希说。
采用这个“DNA 喷泉码”系统,他们编码了这样一堆内容:影片《火车进站》、目前最小的计算机操作系统KolibriOS、先驱者10号和11号探测器发回的太空照片、一篇探讨特定介质最大信息存储量的科学论文,一个名为“压缩炸弹”(Zipbomb)的病毒,以及一张价值50美元的亚马逊礼品卡。
以上内容形成7.2万个DNA片段,经测序、解码,最后重组起来。其间有2000个片段丢失,但文件还是被完整复原了。
DNA存储还有另一个缺陷:测序过程会破坏DNA链,所以,读取次数越多,损耗就越严重,直至消失。“我女儿超喜欢《冰雪奇缘》。”埃里希说。“我们要是存了那首该死的《Let it Go》,那不出一个礼拜,我们的DNA就得消耗殆尽。”好在,DNA就是用来复制的,也很容易复制,所以,将一大堆DNA编码的数据备个份,并不算什么麻烦事儿。只是每次复制都可能引入错误:副本的副本很少有和原版完全一致的。但DNA喷泉码不同,它对错误有着极强的免疫力,在复制了十代之后,杰林斯基仍然得以将文件恢复如初。
“这项工作很不错,”伯尼说,它证明了,DNA存储“是经得起考验的”。他正和戈德曼一道,致力于开发改进版的编码方案,以期在不久的未来,能测试并发布这种方案。微软也对DNA的数据存储潜力抱有极大兴趣。去年7月,微软研究员卡琳·斯特劳斯(Karin Strauss)和华盛顿大学计算机科学家路易斯·恩里克·西斯(Luis Henrique Ceze)合作,在DNA中存储了200MB的数据,创下纪录。“我们对DNA存储的密度优势深信不疑。我们正努力改进存储性能与系统设计,使之更适合存储。”他们说。
还只有少数人玩得起
DNA存储要变成主流,就得进一步降价。当前,DNA测序还很昂贵,合成就更是价格不菲。2012年,伯尼和戈德曼的研究发布时,编码1MB的数据要耗费1.24万美元。如今,这个费用已降至3500美元。但即便成本持续压缩,DNA合成仍属于小众活动,只有专门服务研究实验室的少数几家机构承接。目前,全世界的DNA合成能力加起来,还不够编码1TB的数据。
但埃里希预计,在证明DNA是未来存储介质的过程中,这种状况会发生改变。“最早的硬盘需要四个人一起扛。”他说。“经过几十年的广泛研发,到现在,一个拇指大小的闪存就搞定了。我希望,通过改进方法,我们能让DNA存储的潜力得到充分发挥。”
翻译:雁行
来源:The Atlantic
造就:剧院式的线下演讲平台,发现最有创造力的思想
更多精彩内容及免费演讲门票,敬请关注:造就
1895年,卢米埃尔兄弟公司(Lumiere Brothers)作为史上最早的制片公司之一,推出了全长只有50秒黑白无声电影短片《火车进站》。片中,一列火车缓缓驶入人头攒动的站台,被后世奉为划时代的标志。当时的一位观众描述称,这个例子有力地展现了“动态摄影”的魅力。时隔122年,《火车进站》又一次站到时代前沿,成为最早被存入DNA的影片之一。
纽约基因组中心和哥伦比亚大学的亚尼夫·埃利希(Yaniv Erlich)和迪娜·杰林斯基(Dina Zielinski)通过编码,将该影片存到了DNA里。同时被编入那著名的双螺旋结构的,还有一个计算机操作系统、一张照片、一份科学论文、一个计算机病毒,外加一张亚马逊礼品卡。
DNA是史上最强的存储媒介?
时下,一个1TB硬盘的重量大约有150克。而使用DNA,埃利希和杰林斯基可以在1克的DNA中,装下21.5万倍于此的数据。哪怕将全世界所有的数据都编入DNA,那也占不了多大地方,一个汽车后备箱就足够了。
用DNA存储信息并不是什么新奇之事:生命存在了多久,这个过程就进行了多久。这种分子的外形类似螺旋盘绕的楼梯,基本组成结构是四个碱基,分别为:腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)。构建地球上所有生命的指令全都时通过这些碱基的排序编写出来来。只要能将数字数据中的0和1转化为这四个字母,你就能用DNA编码几乎任何东西。
为何科学家要多此一举,用DNA来存储数据?
因为它拥有其他存储介质所不具备的优势。
DNA不占空间,而且,只要是在干冷、黑暗的环境下,它就能够长久保存。
猛犸象早在几千年前就灭绝了,但我们照样能提取它们的DNA,并加以测序。最重要的是,它那37亿年的履历足以证明一切。木简、纸张、磁带、软盘、光盘、内存芯片……人类发明的每一种存储介质,最终都无法逃避过时的命运。但DNA永远不会过时。在生命活动中,它所扮演的角色如此重要,生物学家无论如何都不会弃之不顾。测序技术会持续改进,但测序工作用不会终止。
2011年,哈佛大学的乔治·彻奇(George Church)投身DNA存储领域。他在DNA内编入了他刚出版的新书、一些图片和一个用Javascript编写的程序。一年之后,欧洲生物信息研究所的尼克·戈德曼(Nick Goldman)和伊万·伯尼(Ewan Birney)使用了更加复杂的编码系统,在彻奇的研究基础上更进一步。他们编码的内容包括:莎士比亚的所有十四行诗,马丁·路德·金《我有一个梦想》演讲的录音片段,还有詹姆斯·沃森(James Watson)和弗朗西斯·克里克(Francis Crick)有关DNA双螺旋结构的论文(PDF版),还有他们研究所的一张照片,这些通通装进了一小点DNA里。而它究竟有多小呢?当初,这些DNA被装在试管里送来时,戈德曼都没找着。还以为试管是空的。
真的好用?
不过有一个问题:DNA编码只能小段小段地进行。若有一大批数据需要编码,你就得先分段合成,得到一大堆乱糟糟的DNA片段,再拼合起来。这就很难保证片段一个都不少,所以说,这样做存在丢失数据的风险。
为克服这个难题,戈德曼和伯尼创造了一种重叠式代码,每部分数据至少编写四份DNA。就算其中一份丢失,还有三份作为备份。方法不错,但效率欠佳,而且也并不是万无一失:团队在尝试恢复文件时,就遇到不少出错的情况。“当时我就想,一定还有比这更高效、更可靠的办法。”
巧合的是,Netflix和Spotify也面临相似的问题。这些流媒体服务提供商要让数据穿越波涛汹涌的网络,片段丢失的情况在所难免,但最后必须天衣无缝地进行恢复。解决办法是采用“喷泉码”,即将数据分割成一个个小包,并达到这样一种效果:即便只抓到一个随机子集,你也能恢复出整体数据。不论丢失的是哪些部分,只要抓到的小包数量够多,你就能重构出整个文件。埃里希将其比作大型数独游戏——你只要填出其中一些格子,就能推测出其他格子里的数字。
两人采用喷泉码,开发了一种新的解码器,效率较之前提高了60%,逼近DNA信息存储密度的上限。“我们离最优配置只有几步之遥。”埃里希说。
采用这个“DNA 喷泉码”系统,他们编码了这样一堆内容:影片《火车进站》、目前最小的计算机操作系统KolibriOS、先驱者10号和11号探测器发回的太空照片、一篇探讨特定介质最大信息存储量的科学论文,一个名为“压缩炸弹”(Zipbomb)的病毒,以及一张价值50美元的亚马逊礼品卡。
以上内容形成7.2万个DNA片段,经测序、解码,最后重组起来。其间有2000个片段丢失,但文件还是被完整复原了。
DNA存储还有另一个缺陷:测序过程会破坏DNA链,所以,读取次数越多,损耗就越严重,直至消失。“我女儿超喜欢《冰雪奇缘》。”埃里希说。“我们要是存了那首该死的《Let it Go》,那不出一个礼拜,我们的DNA就得消耗殆尽。”好在,DNA就是用来复制的,也很容易复制,所以,将一大堆DNA编码的数据备个份,并不算什么麻烦事儿。只是每次复制都可能引入错误:副本的副本很少有和原版完全一致的。但DNA喷泉码不同,它对错误有着极强的免疫力,在复制了十代之后,杰林斯基仍然得以将文件恢复如初。
“这项工作很不错,”伯尼说,它证明了,DNA存储“是经得起考验的”。他正和戈德曼一道,致力于开发改进版的编码方案,以期在不久的未来,能测试并发布这种方案。微软也对DNA的数据存储潜力抱有极大兴趣。去年7月,微软研究员卡琳·斯特劳斯(Karin Strauss)和华盛顿大学计算机科学家路易斯·恩里克·西斯(Luis Henrique Ceze)合作,在DNA中存储了200MB的数据,创下纪录。“我们对DNA存储的密度优势深信不疑。我们正努力改进存储性能与系统设计,使之更适合存储。”他们说。
还只有少数人玩得起
DNA存储要变成主流,就得进一步降价。当前,DNA测序还很昂贵,合成就更是价格不菲。2012年,伯尼和戈德曼的研究发布时,编码1MB的数据要耗费1.24万美元。如今,这个费用已降至3500美元。但即便成本持续压缩,DNA合成仍属于小众活动,只有专门服务研究实验室的少数几家机构承接。目前,全世界的DNA合成能力加起来,还不够编码1TB的数据。
但埃里希预计,在证明DNA是未来存储介质的过程中,这种状况会发生改变。“最早的硬盘需要四个人一起扛。”他说。“经过几十年的广泛研发,到现在,一个拇指大小的闪存就搞定了。我希望,通过改进方法,我们能让DNA存储的潜力得到充分发挥。”
翻译:雁行
来源:The Atlantic
造就:剧院式的线下演讲平台,发现最有创造力的思想
更多精彩内容及免费演讲门票,敬请关注:造就