新浪博客

OAIS模型及其数字资源长期保存要求

2023-02-03 09:41阅读:
如果世界上有一个模型对国内的数字图书馆和数字档案馆建设做到了“言必称之”的程度,那一定是OAIS(Open Archival Information System,开放档案信息系统)参考模型;如果问哪一个标准对世界范围的数字档案馆应用系统和电子档案长期保存系统的建设最具指导意义和参考价值,那也一定是ISO 14721《空间数据和信息传输系统 - 开放档案信息系统(OAIS) - 参考模型》。本文中我们将对档案界如雷贯耳的OAIS参考模型进行介绍,当然,限于文章篇幅,我们将重点对与数字罗塞塔计划紧密相关的数字资源长期保存要求进行介绍。

一、概述


在国际标准化组织(ISO)的请求下,美国空间数字系统咨询委员会(Consultative Committee for Space Data Systems,CCSDS)开始开发一个存档标准以支持数字资源的长期保存。CCSDS于1999年5月发布了OAIS参考模型,这一参考模型针对数字信息的长期保存和维护的档案系统提供一个概念性的框架,描述了一个档案系统存在的环境、档案系统的功能组织以及支持档案处理的信息基础结构。在CCSDS和ISO的推动下,OAIS参考模型成为了数字档案系统普遍遵从的标准规范(即ISO14721),来自图书馆、档案馆、科学数据、文化传承等领域的相关项目和系统都纷纷以其为准,进行系统的规划和设计。CCSDS认为需要长期保存的数字信息将被留存,这一“长期”指的是时间足够长,能与技术变革产生的影响相关联,这些影响包括新载体和新数据格式的支持以及用户群的改变等(关于“长期”的定义可以参考《档案数字资源长期保存的“长期”是多少年?》
一文)。到目前为止,ISO14721标准出过两个版本,分别是ISO14721:2003和ISO14721:2012,主体内容差别不大。

OAIS的目标如下:
1、为长期保管数字信息所需理解的存档概念提供框架,以提高对此的关注度;
2、为非存档组织有效参与保存过程提供所需概念;
3、提供包括术语和概念在内的框架,以实现对现有和将来的存档机制和操作进行描述和比较;
4、提供描述和比较不同的长期保存策略和技术的框架;
5、为比较数字信息的数据模型,探讨数据模型与基础信息如何随时间变化提供基础;
6、为实现对长期保存的非数字形式信息(如实体介质和实体样本)的扩展提供基础;
7、阐述关于长期数字信息的保存与访问的一致观点,促进数字保存各方支持者的更多赞助;
8、指导OAIS相关标准的确定与创建。
OAIS参考模型帮助理解长期保存和访问数字信息所需的存档概念,并提供一种考虑数字资源长期保存的思维方式。利用此模型可以达到让不同应用平台下产生的数字档案能够互联互通、资源整合,实现信息共享、长期保存以及持续可读的目的。

OAIS认为,一个OAIS是一个置身于生产者、消费者和管理者之间的一个存档体系。如下图所示。
图片 围绕OAIS进行档案收集、管理、存储和利用的角色分别有生产者、管理者和消费者:

1、生产者(Producer)
提供需要保存信息的人或者是客户系统。生产者通过OAIS的摄取/收集过程向OAIS提交要保存的信息,包括元数据。这个过程接收提交的数据并准备到档案系统中存储。生产者与OAIS的相互作用通常被描述为提交协议,具体包括:提交的信息类型、期望生产者能提供的元数据以及从生产者到存档的实际传送管理。

2、管理者(Management)
由设置OAIS整体政策的人组成。这一角色确立档案收集的范围,明确档案条目的保存许可,指明资金来源以及监管使用的情况,定期评论OAIS的政策和运作。

3、消费者(Consumer)
通常也翻译成用户,指的是与OAIS服务交互以获取特定保存信息的人或系统。在OAIS消费者中,也包括了被称为“目标团体”的特殊消费者。

管理者、生产者、消费者在OAIS中更多的代表了功能性,而不是单纯的组织角色。所有这些角色可以被包含在单一的组织架构内,也可以分布在多个不同的组织中。


二、OAIS参考模型介绍


数字信息是OAIS中的基本格式,这些数字信息或者是作为档案的主体,或者是作为对数字化信息以及物理存档信息的支持信息存在。在OAIS参考模型中,提供了一个完整的档案信息保存功能,它包括摄取/收集、数据管理、档案存储、利用/分发。它同时论述了数字信息从一种载体或格式到另一载体或格式的迁移/转换、信息表示的数据模型、信息保存中软件的作用、档案系统之间数字信息的交换等。它还确立了各个档案功能内部和外部的接口,以及一系列在这些接口之上的高层服务。

在OAIS参考模型中定义了六大功能实体和三大信息包。下图描述了OAIS参考模型的框架结构(以档案数字资源管理为例):
图片 OAIS中六大功能实体分别为:

1、 档案收集(Ingest)功能


这一实体提供的服务和功能是从档案生产者那里接收提交信息包(SIP),并且对内容进行准备,以便所提交信息能够在档案系统中进行存储和管理。收集功能包括:接收SIP包、对子SIP包进行质量确认、生成符合档案系统数据格式和文件标准的保存信息包(AIP)、从AIP中抽取出描述信息以存入档案数据库,并且协调对档案存储和数据管理的修改工作。

2、 档案存储(Archival Storage)功能


这一实体提供的服务和功能是存储、维护和检索AIP。档案存储的功能包括从Ingest接收AIP,并将它们存储到永久存储系统之中、管理存储系统的组织结构、对存储有档案的载体进行翻新、执行日常的维护工作和特殊的错误检查、提供灾难恢复能力、并且为Access提供AIP以实现档案提取和利用。

3、 数据管理(Data Management)功能


这一实体提供的服务和功能是植入、维护和存取那些标识并记录档案馆藏的描述信息以及对档案系统进行管理的管理数据。数据管理功能包括管理档案数据库(维护数据库中概念模型及视图的定义,维护系统的参照完整性等)、执行数据库更新(装载新的描述信息或档案管理数据)、对管理数据提供查询功能以产生结果集,并从这些检索结果集中生成查询报告。

4、 系统管理(Administration)功能


这一实体提供的服务和功能是对整体的档案系统提供操纵管理。管理功能包括与档案生产者进行商讨以决定提交协议,对提交进行审计以确保提交内容符合档案标准、对系统的软件环境进行配置和管理。它同样还包括一些功能:如监测并提高档案系统运作、详细记录、报告档案的内容,并且对档案的内容进行迁移和修改。它也包括建立并维护档案标准和政策、提供客户支持、激发存储请求。

5、 保存计划(Preservation Planning)功能


这一实体提供的服务和功能是监测OAIS的环境,提供相关建议以确保在OAIS中存储的信息在长期一段时间之后,仍然能够被相应的目标用户所访问。保存计划包括的主要功能有对档案系统中的存储内容进行评估,并且周期地提供存档信息建议以迁移当前的档案馆藏;对档案系统的标准和政策进行建议;监测技术环境和目标用户的服务需求及知识背景的变化。保存计划同样包括设计信息包的模板,提供设计帮助和相关评价以对这些模板进行专业化处理形成特定的SIP和AIP。保存计划还包括开发详细的迁移计划,开发迁移软件原型系统和相应测试计划以实现管理迁移目标。

6、 档案利用(Access)功能

这一实体提供的服务和功能是支持档案消费者,使档案消费者可以判定、了解、定位以及访问存储在OAIS中的信息,让档案消费者可以请求并接收信息产品。利用功能包括与档案消费者进行通讯以接收请求,对于某些特别保护的信息进行管理控制以限制其访问,协调请求的执行以实现请求的完全响应,生成响应(分发信息包DIP,结果集,报告)并且将这些响应传送给档案消费者。

OAIS提出了信息包(Information Package)的概念来说明档案生产者向OAIS的提交过程和OAIS向档案消费者的分发过程。一个信息包是一个包含名为内容信息(Content Information)和保存描述信息(Preservation Description Information,PDI)两种信息对象的容器。

OAIS对提交给它的信息包、它所存储的信息包、以及它分发给其它消费者的信息包进行了区分,分别将这些信息包叫做提交信息包(Submission Information Package,SIP)、保存信息包(Archival Information Package,AIP)和分发信息包(Dissemination Information Package,DIP)。

信息包是信息对象的容器,而信息对象是由知识背景、数据对象和表征信息组成的。数据对象要么是物理对象,要么是数字对象。表征信息是用来解释数据的,使数据成为有意义的信息。因此,信息包是包含了“内容信息”和“保存描述信息”这两种信息对象的“容器”。信息包还与其它两种信息对象——“封装信息”和“信息包描述信息”联系在一起。如下图所示:
图片

三、OAIS参考模型中的长期保存要求


作为国际标准的OAIS参考模型之所以能够在数字资源长期保存领域获得广泛的认可,不仅在于它为数字信息保存提供了一个可供遵循的模式和框架,还在于它所蕴含的管理思想精髓能够被各种数字信息保存机构所广泛借鉴和吸收,发挥其在数字资源保存领域的独特优势。

3.1
信息模型
OAIS的首要目标就是为指定用户群(消费者Consumer)保存信息,而保存时间则难以确定。OAIS认为:完善的数字保存系统必须确保被保存的信息对于目标用户而言是独立可理解的,也就是说,应当确保目标用户在没有信息生产者(Producer)帮助的情况下,仍能够独立地理解被保存的信息。为了实现这一目标,在保存系统中既要保存存档对象,也要保存存档对象的描述和说明信息。为此,OAIS提出了信息模型的概念,用以描述数字保存系统中存在的各类信息,规范数字保存系统中的信息类型和信息包组成。信息模型揭示了数字保存系统中复杂的信息关系,直接影响着在数字保存系统中选择什么作为存储对象,哪些信息是数字对象本身,哪些信息是对数字对象进行描述的信息,这些信息都如何对数字对象进行描述和说明。另外,数字保存系统中的信息模型不仅要有助于数字对象的存储,也要有助于在数字保存链条的每一个阶段发生问题时,能够及时采取措施进行修正,并能够在新的环境和条件下确保可以还原保存的数字对象,保证数字对象的系统可读性和用户可读性。总之,信息模型在数字资源长期保存活动中占据着非常重要的地位。OAIS信息模型如下图所示:
图片 为了对信息对象进行全面而准确的描述,OAIS引入了信息包的方式,实现了信息对象的自包含、自描述、自证明:
图片 引用IBM以色列海法实验室的观点,数字资源长期保存包含两个层面含义,即比特保存与信息保存。也就是说,要实现数字资源的长期保存,必须同时做到比特保存和信息保存。比特保存,也叫物理保存,主要指在存储载体老化或逐步过时的过程中,或是在经历自然灾害后,人们恢复载体中所存信息的能力,重在解决硬件过时的问题。信息保存也叫逻辑保存,主要指在未来技术和用户群体变化的情况下,长期确保数据可理解性和可用性,重在解决编码、语法甚至部分语义过时的问题。由此可见,OAIS信息模型实际上就是为了解决数字保存中的“信息保存”问题。

接下去我们再来看看OAIS参考模型六大功能实体中和长期保存密切相关的两大功能实体(档案存储和保存计划)以及保存策略。

3.2
档案存储
档案存储功能实体详细分解如下图所示:
图片 各组成部分简要描述如下:

1、 数据接收
接收“数字资源获取”(即摄取/收集)实体的存储申请和保存信息包(AIP),并将AIP转移到档案馆的长期保存库中。转移请求需要标明含有AIP的数据对象预计的利用率,以便选择恰当的存储装置或载体来存储AIP。这一功能将选择载体类型、预备装置或容器,并且实施物理转移,将数据对象转移到档案存储器中。完成转移后,“数据接收”将发送一份存储回执给“数字资源获取”实体,其中含有AIP的存储鉴定信息。

2、存储等级管理
在存储管理政策、操作统计或指引“数字资源获取”实体通过存储申请的基础上,通过命令来安置AIP中内容的存储位置。将按照AIP所要求的特殊级别的服务和安全措施来确定恰当的保护级别。这些特殊的服务或安全措施包括:在线存储、离线存储或近线存储、要求的吞吐速率、允许的最大限度的比特错误率、特殊的处理或备份程序。通过监控错误日志,确保AIP在转移过程中不被破坏。它向“系统管理”实体提交操作统计,概述现有的载体清单、各个存储级别可利用的存储容量,还提供利用统计。

3、载体转换
随时间的推移而复制、更新存储AIP的载体。在载体转换功能中,内容信息和保存描述信息不得更改,但构成封装信息的数据可以改动。新载体的选择要考虑各种载体类型预计发生和实际发生错误的概率、它们的性能及成本。如果载体的属性特征 (例如,磁带部件的尺寸、只读光盘的扇区信息)已经包含在内容信息中,且成为其中的一部分,那么当内容信息迁移到较大容量的载体上时,应保证载体属性信息得到妥善保存。

4、 错误检验
确保在内部的档案存储数据传送中,没有AIP成份被破坏。这一功能要求档案馆中所有的软硬件发布潜在错误的通知,并将这些错误发送到标准错误日志中,由档案存储人员进行检测。当AIP被移动或提取时,保存描述信息的固化信息能在某种程度上保证内容信息不被更改。保存描述信息本身也需要类似的信息提供保护。使用一种跟踪并检验档案馆所有数据对象的标准机制很有必要,例如,对每个单独的数据文件提供循环冗余码校验或者支持综合误差侦查和修改的“里德-所罗门代码”。存储设备程序应该利用循环冗余码或其它错误检测机制对数据对象的完整性进行随机检验。

5、灾难恢复
复制档案资源的数字内容并将副本存储到离线设备中并异地保管。这一功能通常通过复制档案内容到某种格式的可移动存储载体(如:数字线性磁带、光盘)上来实现,但也可以通过硬件输送或网络数据传送来完成。

6、数据提供
向“数字访问”(即利用/分发)实体提供存储AIP的副本。这一功能接收到请求AIP的申请,然后对要求的AIP进行鉴定后,按照要求的载体类型提供这些AIP,或者将这些AIP传送到某一集结地。完成后,“数据提供”还将发送一份数据传送通知给“数字访问”实体。

3.3
保存计划
保存计划功能实体详细分解如下图所示:
图片
1、 目标

我的更多文章

下载客户端阅读体验更佳

APP专享