天天看点

持续数据保护(CDP)适合档案数据备份吗?

作者:数字罗塞塔计划

关注我们 - 数字罗塞塔计划 -

几个月前笔者写过两篇针对档案长期保存库备份(或者说是档案数字资源长期保存策略)的文章,《电子档案备份相对于数据备份的特别之处》、《备份策略从“3-2-1”到“4-3-2-1”》,但是很多读者依然觉得不解渴,因为目前绝大部分档案部门正在建设和使用的是管理库,而不是长期保存库。很多单位对于长期保存库的建设尚处于规划设计阶段,现阶段首先应该考虑的是档案管理库数据的备份问题,我们今天就来聊聊这个话题。

持续数据保护(CDP)适合档案数据备份吗?

档案管理库数据的备份问题

按照常规的档案“四库架构”,详细参见本公众号文章《档案信息化建设到底需不需要“四库分离”?》,上图红圈所示的管理库处于核心和中枢的位置,数字档案馆(室)应用系统主要也都是和管理库进行数据交互。管理库中存储的数据主体是档案目录数据和电子全文数据,前者一般存储在关系型数据库中,后者一般存储在文件系统中,两者之间通过一定的逻辑关系映射。当然管理库中的数据比较复杂,除了档案目录数据和电子全文数据之外,可能还会有各种管理类数据、日志文件、程序处理需要的临时或者冗余数据,当然还包括操作系统、数据库、中间件等系统软件本身的数据文件以及应用程序文件。

档案管理库的物理架构也比较复杂,很多立档单位为了管理方便,都会把管理库放在本单位信息部门统一构建的私有云上,这种情况下就采用信息部门统一管理的存储备份策略即可,本文不对这种情况进行讨论。而档案馆则一般会建设独立的计算机机房,对档案数据进行单独管理,而不是将管理库构建在统一的政务云平台上。档办函[2020]55号《关于档案部门使用政务云平台过程中加强档案信息安全管理的意见》中也明确指出:“”。

为了实现管理库的长期稳定运行并确保数据安全,需要对管理库采取切实可行的备份措施。那么,对于物理独立的管理库中的数据应该如何进行备份呢?现阶段,管理库主流的存储备份架构如下图所示:

持续数据保护(CDP)适合档案数据备份吗?

即主要用磁盘阵列存储数据,用磁带库进行数据备份,用备份软件管理整个备份过程并执行备份策略。典型的备份策略示例如下(各单位由于数据量、数据类型、备份要求的不同会有差异,仅供参考):

常见的备份方式包括以下三种:

持续数据保护(CDP)适合档案数据备份吗?

※ 全备份(Full Backup,F):对要备份的内容做无条件的全部备份;

※ 差分备份(Differential Backup,D):从前一个全备份以后,对变更过或新增的数据进行备份;

※ 增量备份(Incremental Backup,I):对从上次任意形式的备份以后变更过或新增的所有数据进行备份。

常规的数据备份可以采用以上三种备份方式相结合的策略,如下所示:

持续数据保护(CDP)适合档案数据备份吗?

即以一个月(或者四周)为周期,每个月做一次全备份(F),每周做一次差分备份(D),每天做一次增量备份(I),约定每天晚上12点钟开始执行备份策略,以此往复循环。

以上备份策略充分运用了全备份、增量备份、差分备份各自的特点,尽可能减少每次备份的数据量以提高备份效率,并且尽可能降低数据恢复时所需的备份文件,同时保证了最大数据损失就是一天的变化数据。

持续数据保护

但不管怎么说,以上备份策略毕竟还是会造成一天的变化数据损失,这在很多实时性要求很高的应用系统中是不被允许的,于是,持续数据保护(Continuous Data Protection,CDP)应运而生。

持续数据保护(CDP)适合档案数据备份吗?

持续数据保护(CDP)也被称作持续备份(Continuous Backup),是一种在不影响主要数据运行的前提下,可以实现持续捕捉或跟踪目标数据所发生的任何改变,并且能够恢复到此前任意时间点的方法。CDP系统能够提供块级、文件级和应用级的备份,以及恢复目标至任意可变的恢复点。

应该说CDP技术是对传统数据备份技术的一次革命性的重大突破。传统的数据备份解决方案专注在对数据的周期性备份上,因此一直伴随有备份窗口、数据一致性以及对生产系统的影响等问题。而CDP系统为用户提供了新的数据保护手段,系统管理者无须关注数据的备份过程(因为CDP系统会不断监测关键数据的变化,从而不断地自动实现数据的保护),而且当灾难发生后,简单地选择需要恢复到的时间点即可实现数据的快速恢复。

从原理上来看,CDP技术通过在操作系统核心层中植入文件过滤驱动程序,来实时捕获所有文件访问操作。对于需要CDP连续备份保护的文件,当CDP管理模块经由文件过滤驱动拦截到其改写(新增、删除、修改)操作时,则预先将文件数据变化部分连同当前的系统时间戳(System Time Stamp)一起自动备份到存储设备。从理论上说,任何一次的文件数据变化都会被自动记录,因而称之为持续数据保护。有一个形象的比喻:传统备份软件就像是照相机,只在按快门的时候产生照片;CDP软件则是摄像机,打开就不停工作,任何时间点的图像都不会错过。

全球网络存储工业协会(Storage Networking Industry Association,SNIA)关于CDP的描述如下图所示:

持续数据保护(CDP)适合档案数据备份吗?

CDP技术用于档案管理库的备份

如果将CDP技术用于档案管理库的备份,存储备份架构如下图所示:

持续数据保护(CDP)适合档案数据备份吗?

在需要监控的服务器上安装CDP客户端(如果服务器进行了虚拟化处理,也可以在云平台中嵌入CDP引擎插件),采用CDP备份一体机进行持续备份,为了提升备份和恢复的速度,备份数据的存储载体以磁盘为主。

SNIA关于CDP的优势已经说的很明白:

1)零数据丢失、零备份窗口;

2)任意时间点的数据恢复;

3)数据恢复操作便捷;

4)全天候的数据保护。

这样看来,CDP似乎可以完全取代传统的数据备份方式了,但事实并非如此,CDP技术也存在一些劣势:

1)真正的CDP技术需要解决数据持续不间断监控和记录的技术难题,目前还存在资源消耗大、计算效率低、重复数据多的问题;

2)真正的CDP技术持续备份时产生的大量数据,远大于其他备份方式产生的数据量,对存储系统形成较大压力;

3)真正的CDP解决方案实施费用相对较高,是传统备份方式的几倍,但大部分客户的数据保护需求并没有这么高。

因此,从性价比上来评判数据备份解决方案的优劣,是否采用CDP技术就不一定了。一般而言,CDP技术方案更加适合于系统实时性要求非常高、对数据变化高度敏感的应用,比如银行交易系统、订票网站、生产管理系统等,相对而言档案管理系统的数据实时性要求并没有这么高,采用传统的备份方案,一天的变化数据丢失也不是说完全不能接受,毕竟档案数据还有多套备份,还有长期保存库托底。大不了在灾难发生时,数据恢复到前一天之后再人工录入当天的数据,也不会产生多少工作量。在这种情况下,笔者认为,对于档案管理库中的数据,传统的备份方案实际上也已经够用了。当然在经费允许的情况下,CDP解决方案也可以尝试,毕竟这代表了备份技术的发展方向。

数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明,我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见,共同为人类文明的传承而努力奋斗!

关注我们 - 数字罗塞塔计划 -

继续阅读