首页> 中国专利> 音视频文件的DNA数据存储单元、存储方法及纠错方法

音视频文件的DNA数据存储单元、存储方法及纠错方法

摘要

本发明提供了一种音视频文件的DNA数据存储单元、存储方法及纠错方法。DNA数据存储单元包括索引地址和数据部分;数据部分包括多个存储控制单元,每个存储控制单元包括标志位、序号、DNA数据片段和RS冗余纠错码;标志位用于确定存储控制单元的起始位置;序号用于确定DNA数据片段在数据部分的位置;RS冗余纠错码用于纠正存储控制单元在存储过程中出现的错误;DNA数据片段存储有由基于DNA特性的高密度编解码技术转换成的碱基序列片段。本发明实现了时间序列文件在进行DNA数据存储过程中,按连续时间段进行数据快速查找,以及文件随机读取和存储数据纠错编码。同时还能够对大数据量的音视频文件进行存储,且存储密度高、能进行纠错。

著录项

  • 公开/公告号CN113806583A

    专利类型发明专利

  • 公开/公告日2021-12-17

    原文格式PDF

  • 申请/专利权人 中国科学院深圳先进技术研究院;

    申请/专利号CN202111034360.X

  • 发明设计人 肖焯;姜青山;曲强;王洋;

    申请日2021-09-03

  • 分类号G06F16/61(20190101);G06N3/12(20060101);H03M13/15(20060101);

  • 代理机构44486 深圳智趣知识产权代理事务所(普通合伙);

  • 代理人李兴生

  • 地址 518055 广东省深圳市南山区深圳大学城学苑大道1068号

  • 入库时间 2023-06-19 13:45:04

说明书

技术领域

本发明涉及DNA数字存储领域,具体而言,涉及一种音视频文件的DNA数据存储单元、存储方法及纠错方法。

背景技术

随着大数据科学的迅猛发展,人类以指数级的速度生成数据,传统存储介质如磁带、光盘、硬盘等,已逐渐不能满足数据存储的迫切需求,这需要一种存储密度高、存储时间长的新存储媒介来解决信息时代数据爆炸的问题。DNA存储是由DNA合成与测序技术与计算机存储相融合的新领域,通过碱基对的有序组合来存储数字信息。

近年来,世界上各大科研机构都在DNA数字存储领域的研究投入了大量的人力物力。当前的研究重点主要集中在编码系统的设计与改进、可靠性与存储密度的提高、以及随机存取与深度复制功能的实现等相关方面。

存储密度方面,DNA数字存储理论上可以达到10

在维护成本方面,DNA数字存储所需要的占地资源、能源均远远小于传统存储介质。在数据备份方面,由于PCR扩增技术的不断发展,DNA的复制扩增也变得十分简便快捷。在可行性方面,DNA合成技术与DNA测序技术在近二十年取得迅猛的发展,为DNA数字存储提供了坚实的技术保障。

哈佛大学Church研究团队于2012年提出DNA数字存储的概念和第一代通用DNA数字存储的编码方法,并将650kb数据存入DNA中。2017年,美国哥伦比亚大学Y.Erlich研究团队发表的DNA喷泉码(DNA Fountain)更是实现了接近于理论极限的DNA存储编码方式。2018年,华盛顿大学Lee Organick团队提出一种支持随机访问的DNA存储方法。2019年,华盛顿大学Luis Ceze团队将数字信息形成档案数据存储,并进行体内和体外DNA存储实验,实现了一套全自动的DNA数据存储与提取装置。编码方法的研究对实现高效稳定的DNA存储,并对对接上下游支撑使能技术起到至关重要的作用。2020年苏黎世联邦理工学院提出了一个基于大规模并行处理机光导合成的DNA存储系统,即便在高错误率的情况下,通过开发编码和重构信息的算法,也能可靠地从DNA存储信息中进行完美的数据恢复。

随着DNA合成和测序技术的不断发展,在DNA存储过程中的错误率已经明显下降,但读取的内容仍然不可避免的会出现一些错误。由于DNA合成技术限制,当前合成的寡核苷酸链长度一般不超过200个核苷酸(nt),并且单分子测序尤为困难,每个核苷酸的错误率约为5-15%。在DNA数据存储进行碱基片段合成、存储、读取、测序过程中,可能会发生错误导致最终读取的数据与原始数据出现偏差。

音视频文件是一系列具有连续记录内容的记录性文件,音视频文件进行数据存入后就很少再需要修改。查询时间序列DNA存储数据经常是查询一个连续时间段的数据,针对音视频文件,对DNA数据存储方法进行优化将会提高存储效率和查找速度。

然而,单个音视频文件的存储数据量比较大,现有的DNA数据存储方法难以支持超过3MB的文件进行DNA数据存储,音视频文件的DNA数据存储难度极大。

因此,需要一种针对音视频文件的DNA数据存储方法,能够解决上述问题。

发明内容

基于现有技术存在的问题,本发明提供了一种音视频文件的DNA数据存储单元、存储方法及纠错方法。具体方案如下:

一种音视频文件的DNA数据存储单元,包括索引地址和数据部分,所述索引地址位于所述DNA数据存储单元头部;

所述数据部分包括多个存储控制单元,每个存储控制单元包括标志位、序号、DNA数据片段和RS冗余纠错码;

所述标志位用于确定所述存储控制单元的起始位置;

所述序号用于确定所述DNA数据片段在所述数据部分的位置;

所述RS冗余纠错码用于纠正所述存储控制单元在存储过程中出现的错误;

所述DNA数据片段存储有由基于DNA特性的高密度编解码技术转换成的碱基序列片段。

在一个具体实施例中,所述DNA数据片段的二进制存储长度为175-185bp,对应存储的二进制数据平均长度为320bit;

每个所述DNA数据存储单元的二进制存储长度为1400-1480bp,对应存储的二进制数据的平均长度为2560bit。

在一个具体实施例中,所述标志位的二进制存储长度为6bp,所述序号的二进制存储长度为3bp,所述RS冗余纠错码的二进制存储长度为12bp;

和/或所述数据部分包括8个所述存储控制单元。

在一个具体实施例中,多个所述DNA数据存储单元构成DNA数据存储文件;

所述DNA存储文件存储有音视频文件的文件格式信息。

一种音视频文件的DNA数据存储方法,采用上述任一项所述的DNA数据存储单元,所述方法包括如下:

获取待存储的音视频文件,将所述音视频文件导入预设的DNA存储系统;

对所述音视频文件进行数据集成,根据按照预设规则将所述音视频文件进行归类和整理,得到音视频数据,并存储到数据库中;

对所述音视频数据进行数据规约和转换,在不损害数据完整性的前提下,对预设部分的音视频数据进行压缩编码,并提取已知的格式信息;

对已经进行所述数据规约和转换的音视频数据进行数据拆分得到多个所述DNA数据存储单元;

构建DNA数据存储文件,将所述文件格式信息存储到所述DNA数据存储文件的头部信息中。

在一个具体实施例中,所述数据拆分还包括:

划分多个数据块,所述数据块用于DNA数据存储编解码转换后的DNA序列合成。

在一个具体实施例中,当DNA存储数据需要解码成计算机文件信息时,还包括:

解析所述DNA数据存储文件的头部信息,获取所述文件格式信息;

根据所述文件格式信息对不同的文件格式进行读取。

在一个具体实施例中,所述音视频文件包括音频压缩数据、视频压缩数据和音视频封装格式数据。

在一个具体实施例中,针对时间序列视频文件,提取所述视频文件中的时间戳;

将所述时间戳添加到所述DNA数据存储文件的头部信息中。

一种音视频文件的DNA数据纠错方法,采用上述任一项所述的DNA数据存储单元,所述方法包括如下:

对存储在所述DNA数据存储单元的数据进行解码,获取解码文件;

根据所述RS冗余纠错码判断所述解码文件的是否存在错误;

若存在,则根据所述RS冗余纠错码查找错误位置,根据所处错误位置查找错误数据;

根据所述DNA数据存储单元对所述错误数据进行纠正。

本发明具有如下有益效果:

本发明提供了一种音视频文件的DNA数据存储单元、存储方法及纠错方法,能够实现时间序列文件进行DNA数据存储时,按连续时间段进行数据快速查找。DNA数据存储单元,能够实现对DNA数据存储文件时间序列存储文件进行快速查找优化,解决了现有DNA存储技术无法实现大数据量文件存储的弊端。DNA数据纠错方法,针对在存储过程中可能会出现的错误,利用RS冗余纠错码对随机错误、突发错误及两者的混合错误进行纠错,同时实现了时间序列音视频文件进行DNA数据存储中的文件随机读取和存储数据纠错编码。通过对比现有的DNA存储方法可以看出,本发明提出的基于高密度编解码技术的DNA数据存储方法在支持的存储数据量和存储密度等方面已经远远优于现有的DNA存储方法,并且支持对DNA序列数据进行纠错。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1是本发明实施例的DNA数据存储单元结构示意图;

图2是本发明实施例的DNA数据存储方法流程示意图;

图3是本发明实施例的预处理流程示意图;

图4是本发明实施例的解码流程示意图;

图5是本发明实施例的实验结果图;

图6是本发明实施例的计算后的实验结果图;

图7是本发明实施例的DNA存储文件示意图;

图8是本发明实施例的数据对比图;

图9是本发明实施例的纠错流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

本实施例提出了一种音视频文件的DNA数据存储单元,DNA数据存储单元结构示意图如说明书附图1所示。具体方案如下:

一种音视频文件的DNA数据存储单元,包括索引地址和数据部分,索引地址位于DNA数据存储单元头部。索引地址和数据部分的关系如说明书附图1所示。在每一个DNA数据存储单元的头部加入DNA存储单元的索引地址,可以实现对DNA存储数据进行随机访问。

其中,数据部分包括多个存储控制单元,优选地,每个数据部分包括8个存储控制单元,如说明书附图1所示。由于只有8个不同的标记片段,因此最多只能设置8个存储控制单元,本实施例通过8个不同的标记片段标记8个存储控制单元。每个存储控制单元包括标志位、序号、DNA数据片段和RS冗余纠错码。

其中,标志位可用于确定存储控制单元的起始位置,序号可用于确定DNA数据片段在数据部分的位置,RS冗余纠错码用于纠正存储控制单元在存储过程中出现的错误,DNA数据片段存储设置有由基于DNA特性的高密度编解码技术转换成的碱基序列片段。

其中,DNA数据片段的二进制存储长度在175-185bp之间,DNA数据片段的二进制存储长度平均为180bp,对应存储的二进制数据长度平均为320bit(40字节)。每个DNA数据存储单元的二进制存储长度平均为1600bp,对应存储的二进制数据的长度平均为2560bit(320字节)。

在说明书附图1中,标志位的二进制存储长度为6bp,序号的二进制存储长度为3bp,RS冗余纠错码的二进制存储长度为12bp。

由于DNA合成技术的限制,当前合成的寡核苷酸链长度一般不超过200个核苷酸(nt),难以对音视频文件等存储数据量较大的文件进行存储。为了满足存储大数据量文件的需求,本实施例提出了一种DNA数据存储单元,并使用DNA合成拼接技术将DNA数据片段拼接成DNA存储单元数据部分。

在DNA合成、存储、读取的过程中,可能会发生以下错误导致最终读取的数据与原始数据出现偏差:

1.在储存过程中,由于DNA降解,可能导致DNA分子出现缺失;

2.DNA测序读取的数据取决于分子在池中的分布和抽取的次数;

3.DNA的合成、测序过程中,可能会导致单个DNA分子中核苷酸的插入、缺失和取代。

随着DNA合成和测序技术的不断发展,在DNA存储过程中的错误率已经明显下降,但读取的内容仍然不可避免的会出现一些错误。为了纠正在DNA存储过程中随机出现的错误,本实施例在DNA数据片段中加入RS(Reed-Solomon)纠错码,可以对随机错误、突发错误及两者的混合错误进行纠错,实现了时间序列音视频文件进行DNA数据存储中的文件随机读取和存储数据纠错编码。

Reed-Solomon是一种定义在有限域(Finite Field)中的冗余纠错算法。其中有限域是由满足加、减、乘、除四种运算的有限元素组成,也称为伽罗华域。

GF(2

其中,GF(q)表示有限域,q是域内元素数目。有限域的一个重要特征是每一个有限域GF(q)至少有一个叫做α的本原元素,该元素的q-1次幂都是这个域中q-1个非零元素。即q-1个非零元素可以表示为α,α

对任何q=p

GF(2

m(x)=x

当上述等式的值为0时,可以求出本原多项式m(x)的解为α,可生成GF(2

RS码生成多项式的公式为:

g(x)=(x-α)(x-α

根据查找GF(2

g(x)=01*x

对应给定数量5个校验符号的RS码生成多项式为[01,0f,36,78,40]。如果在DNA数据片段后加入12位RS冗余纠错码,那么对应12位校验符号的RS冗余纠错码生成多项式为[1,68,119,67,118,220,31,7,84,92,127,213,97]。本实施例的RS冗余纠错码为12位校验符。

在针对DNA序列中的剪辑片段进行校验时,将RS冗余纠错码的输入改成“A、T、C、T”的剪辑片段,并将腺嘌呤(A)转换为对应二进制序列“00”,胸腺嘧啶(T)转换为对于二进制序列“01”,胞嘧啶(C)转换为对应二进制序列“10”,鸟嘌呤(G)转换为对应二进制序列“11”。对DNA序列的四进制RS纠错算法进行重新实现,输出的数据进行逆转换,输出的数据也是DNA序列的校验序列“A、C、T、G”字符串。本实施例将RS纠错码融合到DNA数据存储单元中,现有的RS纠错码只是针对二进制数据进行编解码操作,而对于DNA存储需要使用RS纠错编码对四进制数据进行编解码操作。

本实施例基于DNA数据存储中寡核苷酸链的长度限制和需要进行碱基纠错等需求,提供了一种音视频文件的DNA数据存储单元,既能够扩充DNA数据存储的存储容量,又能对存储数据纠错编码,同时实现对DNA数据存储文件时间序列存储文件进行快速查找优化。

实施例2

本实施例提出了一种音视频文件的DNA数据存储方法,采用实施例1提出的DNA数据存储单元,DNA数据存储方法流程示意图如说明书附图2所示。具体方案如下:

一种音视频文件的DNA数据存储方法,包括如下步骤:

101、获取待存储的音视频文件,将音视频文件导入预设的DNA存储系统;音视频文件包括音频压缩数据、视频压缩数据和音视频封装压缩格式数据。

102、对音视频文件进行预处理得到音视频数据,提取音视频文件的文件格式信息,并将音视频数据划分为多个DNA数据存储单元;

103、构建DNA数据存储文件,并将文件格式信息存储到DNA数据存储文件的头部信息中。

其中,预处理的流程图如说明书附图3所示,预处理具体包括:

数据集成:将多个数据源获取的音视频文件进行集成,根据按照预设规则将音视频文件进行归类和整理,得到音视频数据,并存储到数据库中。具体地,将多个数据源的数据进行集成,根据不同的文件信息、数据标注和文件重要程度,对采集数据进行归类和整理,形成一个集中、统一的数据库,有利于数据库的可用性、完整性和一致性。

数据规约和转换:在不损害数据完整性的前提下,对一些不常见的音视频数据进行通用的压缩编码,将已知的文件格式信息存储到DNA数据存储文件头部中;当DNA存储的数据需要进行解码成计算机文件信息时,解析DNA数据存储文件头部信息,然后根据已知的文件格式信息对不同的文件格式进行读取。

在进行DNA数据存储时,需要对不同格式的音视频文件进行处理。音视频文件属于非结构化的数据,不同的文件拥有不同的文件头部信息,也没有清晰的类别定义,无法用一个简单的数值表进行表示。因此需要对每一个处理的文件读取不同的头部信息分别处理。

数据拆分:由于DNA合成技术的限制,当前合成的寡核苷酸链长度一般不超过200个长度,需要对已经进行数据规约和转换的音视频数据进行拆分,划分为多个存储单元,用于DNA数据存储编解码转换后的DNA序列合成。

在本实施例中,DNA数据存储数据的预处理过程借鉴了分布式计算机存储的处理过程,在进行大量数据采集的过程中,通常包含多个数据源,这些数据源包含不同的数据格式、文件系统、服务接口和命名方式。数据预处理的环节包含数据集成、数据规约、数据转换和数据拆分,可大大提高用于DNA数据存储的数据一致性、可靠性和准确性,其处理过程如说明书附图3所示。不同类型的文件数据经过预处理,将存储的信息转换为二进制字符串,并划分为标准的数据存储单元。

特别地,为了更高效的对时间序列视频文件进行查找和分析,本实施例将时间序列视频文件的时间戳加入到DNA数据存储合成的DNA序列文件头部,使时间序列视频文件在存储中具有逻辑关系,能快速查找相邻时间序列视频文件,实现了音视频文件在进行DNA数据存储时按连续时间段进行数据快速查找。

针对时间序列音视频文件,构建时间序列索引库,优化音视频DNA数据存储中连续时间段的数据查找效率。本实施例通过构建时间序列数据集进行DNA数据存储实验,验证音视频文件DNA数据存储方法和DNA数据存储单元在存储密度和存储数据规模的性能提升。将RS冗余纠错编码和DNA数据存储单元编解码算法集成于DNA数据存储的工作流中,在实现数据长期保存的同时,保证了数据存储的安全性和完整性,同时便于完成DNA存储系统的构建。

针对音视频文件进行Reed-Solomon冗余纠错码的DNA数据存储单元存储实验,本实施例选取了一系列时间序列音视频文件,按照DNA数据存储单元格式将二进制数据流先切分成固定大小的数据块,再转换为DNA序列文件,并将每一次实验的结果记录进行记录,记录每个文件的原始文件大小信息、转换后DNA存储文件大小信息以及编码效率。DNA数据存储编解码方法流程如图4所示。

在具体实验中,选取机器人流程自动化(Robotic process automation,RPA)框架爬取实验用的音视频数据,包括音频压缩数据、视频压缩数据和音视频封装压缩格式数据。针对视频网站的网页源码进行资源分析,对页面发送请求并解析音视频链接,使用正则表达式建立匹配规则,根据音视频链接获取二进制数据并组装成音视频文件。

以时间序列视频文件为例,对视频文件进行从计算机存储文件到DNA存储文件转换编解码实验,将二进制序列文件转换为DNA序列文件,并将每一次实验的结果记录如说明书附图5所示。图5包含每个文件的原始文件大小信息以及文件类型。说明书附图6记载了转换后DNA存储文件大小信息以及编码效率,各文件的详细信息和转换后的编码信息如说明书附图5和说明书附图6所示。将计算机存储文件转换为DNA存储文件,转换后的结果如说明书附图7所示。

目前已经提出的DNA存储方案主要包括:2012年Church等人提出的二进制转换算法。2013年Goldman等人提出的哈夫曼编码算法。2015年Grass等人将RS纠错码用于DNA存储。2016年Bornholt等人加入索引编码实现随机读取。而Blawat等人运用前向纠错技术,确保了DNA数据读取的准确性。2017年Erlich等人基于喷泉码压缩数据,提高了编码密度。2020年华盛顿大学Lee Organick提出基于PCR的随机访问的可靠文件恢复,并验证文件大小和测序覆盖率对成功的文件检索和寻找系统的DNA链丢失的影响。

将本实施例的DNA数据存储方法与上述主流的DNA存储编码方案进行对比,对比结果图如说明书附图8所示。其中,图中最后一行DNA-HDRS为本实施例的DNA数据存储方法。

关于存储密度,可通过计算一系列时间序列音视频文件的存储密度并求取平均值得到。由实验结果可知,本实施例提出的方法在存储密度上有较大的提高,不断接近DNA数据存储编解码的极限密度。

关于存储数据量,本实施例提出的DNA数据存储方法使用的数据量最大的音视频文件是1044.76MB。而现有技术的存储数据量普遍不超过3MB。存储容量跃升,能够适用于大数据量的音视频文件存储。

此外,可根据本实施例提供的DNA数据存储方法,构建一套计算机系统调用算法,使用该系统生成用于存储的DNA序列文件。系统支持三大主流操作系统(Linux、windows、MacOS),对不同的系统具有兼容性;程序运行所需要的资源少,软件的存储路径可根据用户需求进行修改。

本实施例提出了一种音视频文件的DNA数据存储方法,采用实施例1提出的DNA数据存储单元,实现了音视频文件在进行DNA数据存储时按连续时间段进行数据快速查找;将RS冗余纠错编码和DNA数据存储单元编解码算法集成于DNA数据存储的工作流中,在实现数据长期保存的同时,保证了数据存储的安全性和完整性,同时便于完成DNA存储系统的构建。

实施例3

本实施例提供了一种音视频文件的DNA数据纠错方法,采用了实施例1的DNA数据存储单元。该方法适用于读取数据与原始数据出现偏差时。

流程图如说明书附图9所示,方法包括:

对存储在DNA数据存储单元的数据进行解码,获取解码文件;

根据RS冗余纠错码判断解码文件的是否存在错误;

若存在,则根据RS冗余纠错码查找错误位置,根据所处错误位置查找错误数据;

根据DNA数据存储单元对错误数据进行纠正。

本实施例提供的音视频文件的DNA数据纠错方法,可应用于实施例2的音视频文件的DNA数据存储方法之后。当数据采用实施例2的数据存储方法进行存储之后,可采用本实施例的数据纠错方法,对解码之后的文件进行纠错处理。

基于DNA合成中寡核苷酸链长度限制和需要进行碱基纠错等需求,本实施例提出了一种DNA数据纠错方法,针对在存储过程中可能会出现的错误,利用RS冗余纠错码对随机错误、突发错误及两者的混合错误进行纠错,同时实现了时间序列音视频文件进行DNA数据存储中的文件随机读取和存储数据纠错编码。

本发明提供了一种音视频文件的DNA数据存储单元、存储方法及纠错方法,能够实现时间序列文件进行DNA数据存储按连续时间段进行数据快速查找。DNA数据存储单元,能够实现对DNA数据存储文件时间序列存储文件进行快速查找优化,解决了现有DNA存储技术无法实现大数据量文件存储的弊端。DNA数据纠错方法,针对在存储过程中可能会出现的错误,利用RS冗余纠错码对随机错误、突发错误及两者的混合错误进行纠错,同时实现了时间序列音视频文件进行DNA数据存储中的文件随机读取和存储数据纠错编码。通过对比现有的DNA存储方法可以看出,本发明提出的基于高密度编解码技术的DNA数据存储方法在支持的存储数据量和存储密度等已经远远优于现有的DNA存储方法,并且支持对DNA序列数据进行纠错。

本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号