中欧数字资源长期战略保存国际研讨会
北京 , 2004年7月14-16日
版权声明
依照《中华人民共和国著作权法》规定,本次会议报告作者拥有各自报告的著作权。为全面宣传、介绍本次研讨会的内容和研讨成果,推动数字资源长期保存研究在我国的进一步开展,经过报告作者同意,会议组委会将这些报告在会议网站上公开发布,供有关研究者和教育者个人学习、研究。
根据我国著作权法规定和报告作者授权,个人为学习、研究、教学目的,可以浏览、复制、下载、引用这些报告,教育、研究和图书情报单位可以为了宣传、研究、教学目的建立与会议网站的链接(http://www.csdl.ac.cn/meeting/cedp/index.html)。未经本次会议组委会授权,任何人或系统不得建立本网站的镜像系统,也不得在自己的系统中镜像本次会议的报告。为了保护报告作者的著作权,任何人在复制、下载、建立链接、宣传和引用时,必须在明显地方完整标明“中欧数字资源长期保存国际研讨会(Chinese-European
Workshop on Digital
Preservation)会议报告”的字样,必须保证每个报告的完整性,必须注明报告作者的真实姓名和报告完整名称。任何人不得以商业赢利的目的复制、转载、镜像、或以其他形式传递和发布这些报告。
报告版权人和会议组委会不承担用户在使用这些报告内容时可能造成的任何实际或预计的损失。
文摘:
Andreas
Aschenbrenner
-------------------------------------- 主要特征和文件格式特性 -------------------------------------- 本文介绍需要保存的数字对象主要特征的定义和概念。在一个数字资源保存项目的初始阶段,数字资源主要特征的定义将对某个机构,在其选取适合某些特定要求的保存方法方面给予指导。对象保存的明显特性是被文件格式的固有特性所限制的。本文也讨论文件格式特性,和其在成功的长期保存工作中的角色。 -------------------------------------- 文件格式注册 -------------------------------------- 考虑到在研究活动中的知识交换和协作,数字资源保存中的合作总是必要的。由于(数字资源)初始化项目越来越重视应用,合作总是具有实际的意义。初始化项目致力于各种资源保存系统中需要的协作式构建服务。这类资源保存提供文件格式的注册。资源保存机构共同召集资源特性和文件格式的注册,记录不同文件格式的各种变化。和建立文件格式注册相关的活动已经出现,一些资源保存初始化项目期望当前的方法可提供服务。
Reinhard AltenhÖner
-------------------------------------- 永久标识符 -------------------------------------- 电子出版过程一般应具备一些特性:“快速、节省费用、可在全世界范围内访问”。但是,从作者和用户的观点看,这些特性对于电子出版的永久访问是足够的吗?对网络的一般经验并不能导致理由充足的结果:URLs并不提供一种机制,即:使得网络出版可被明确标识和在任何时间被跟踪的机制。解决这个问题的一个办法是给出永久标识符,例如统一资源名称URN,Die
Deutsche Bibliothek在EPICUR项目中对URN的应用进行了总结。
在本地环境中的应用不能保证其地址模型的永久性。例如,如果一个研究所停止对数字收藏的维护和服务,即使使用了永久地址模版,其参考价值在URL的事例下也不是永久的。为了保证永久地址模型例如URN的长期可用性,有必要产生一个架构从制度上来保证备份。
本报告对在世界范围内永久标识符的讨论及其应用进行了整体的描述。并在Die Deutsche
Bibliothek的 EPICUR项目的基础上,对(永久标识符)下一步的发展进行展望。
René van Horik
------------------------------ 图像格式的保存 ------------------------------ 讲稿中所包括的内容 ·
图像格式的定义和描述. · 图像格式的类型. · 数字图像保存中的各种理论概述(以及以这些理论为基础的假设). o
元数据 o 文件格式标准 o XML的作用 o 登记 o 其他. ·
数字图像保存中的应用方法概述. o 格式登记 o 格式鉴定 o 数字存档 o 分布式存储 o
仿真 o 其他. · 改进方法的重要性。数字格式相对很年轻,只有未来可以判断哪些假设是正确的 ·
对数字光栅图像的长期保存“Building blocks” o 基于下面的假设:
图形文件格式标准是持久的
用XML数据格式编码的数据格式是持久的格式
数字对象的元数据是未来理解和处理数字图像的基础 · Building block 1: 图形格式文件标准 o
1994-2004年期间对图形文件格式的讨 o TIFF格式被认为是利于长期检索最好格式. o
TIFF格式的讨论 · Building block 2: XML数据格式用于数字图像数字位流的持久编码. o
如何以XML来表述数字图像的数字位流?
以XML对内容模型的描述 二进制转换到
将来XML转换到二进制XML o
用XML表述数字图像的可适用方法
数位位流语法描述语言(BSDL) Universal
Virtual Computer (UVC)
表述视听对象的格式语言((Flavor/Xflavor) o 上述三种方法的比较 · Building
block 3: 数字图像的保存元数据元素集. o 创建和存储关于数字图像的保存元数据的方法(例如:RLG的“automatic
metadata exposure”项目) o 关于数字图像的一些重要元数据元素集:
NISO Z39.87 (关于数字静态图像的技术元数据
EXIF(由数码相机创建的数字图像)
SepiaDES(历史照片的数字替代品) 其他 ·
结论: o (基线Baseline) TIFF可能是长期存储数字图像的最佳格式 o
用XML对数位位流的表述:需要更多的研究 保存元数据:应用profiles
和登记来帮助精确区分我们比较含糊的事物’.
------------------------------ 案例研究:荷兰科学信息服务所(NIWI-KNAW)对图像文件的长期保存 ------------------------------ 讲稿包括的主要内容:
· NIWI-KNAW 的任务与使命 o 存储科学数据(荷兰历史数据存档是存储人文学者创造的数据集) o
在人文科学中ICT应用的研究与发展(例如历史学科) o 数字数据集和生产项目(历史调查,GIS,虚拟资料) ·
NIWI-KNAW 生产和存储的图像文件 o 面向项目 o 历史资料的数字化 o
相关的原物类似物——数字替代品 o 测试数字化链 o 举例(历史照片馆藏的主要数字化) ·
如何保证对图像的长期获取 o 危机管理(对危及数字图像长期获取的风险以及其影响进行评估) o
在有些情况下缩微胶卷是最好的存档媒介 ‘基于胶卷的图像’’‘Film
based imaging’ 保存缩微胶卷与保存图像 o 获取 =
保存. OAI-PMH
LOCKSS o
OAIS参考模型l
“checklist”的功能 数据存档中的应用
------------------------------ 人文科学数据的保存 ------------------------------ 讲稿中包含中的内容: ·
人文科学和社会科学领域科学数据的存档: o 社会科学数据的存档(对20世纪70年代存档方法的调查). o
电子文本存档(在描述内容、文本和电子正文结构中TEI的重要性). o
历史数据存档(包括结构化和非结构化数据。基于社会科学数据档案的存当程序).
面向计算机的资源与面向计算机的问题以及他们对数据存档方法的作用.
数据集关系的重要性——历史资源 o
公共记录机构(近期在数字存档、问题确定、法律关系、数字环境下起源的采用原则等的兴趣) · 国际状况: o
在欧洲社会科学和历史数据的存档(在各个国家的机构和现状) o 国际合作
IFDO (数据组织的国际联盟) CESSDA
欧洲社会科学数据存档委员会 o 面向组织的用户 AHC:
历史与计算协议. ACH/ALLC:
计算机与人文协会/文学与语言学处理协会 · 重要的标准 o OAIS((帮助建立公共词表 o DDI
(数据文件启动项目) o 基于XML的标准,例如 METS ·
改变数据存档的研究惯例和影响 o 在网络环境下学者之间研究活动的合作(合作/共享) o
数据存档必须起始于数据生命周期的最初阶段 o 集中式和分布式存储 o 开放获取
Andreas
Rauber ------------------------------
ELOS:出色的EU
FP6网络组织,特别关注其保存研究。 ------------------------------ 通过整合和大量IC技术的应用、全球范围的数字内容的提供能力和在线用户的强烈需求,数字图书馆成为可能。它们注定要成为21世纪信息基础设施的最根本的部分。DELOS网络组织实施了一个联合的计划,其目的在于整合与协调欧洲地区从事数字图书馆领域的一些主要团队正在进行的研究工作,这些团队的目标是发展下一代数字图书馆技术。
这次报告将介绍关于七个研究群体的概况,并特别关注DELOS组织中数字保存团队的研究活动。 ------------------------------ 利用效能分析来评价和比较保存策略 ------------------------------
随着数字化信息和原生电子资源的大量增加,长期保存解决方案面临的形式开始变得严峻起来,当一些不同的方案,如仿真、迁移或计算机博物馆,被当做解决这种挑战而提出时,没有一种方案能在所有的情况下脱颖而出,选择合适的策略和工具因而成了一项重要的任务。
这次,我们将讨论效能分析的一个匹配说明,它用于为每一种特殊情况选择最优的保存策略,这种分析方法常被用于基础设施的建设项目,如高速公路、机场,或城区发展,这里则用于综合那些为了选择合适的保存策略而需要考虑的广泛需求。
最后,我们在再谈谈一个识别和定义影响选择一种特殊的保存方案的标准的框架,例如一个特殊的迁移工具。
从理论上来解释评价的尺度,并通过实例研究实现不同领域的应用来证明。
Thomas
ABSTRACT
------------------------------ 自然科学领域的科学数据保存 ------------------------------ 在科学领域“原始数据”的保存是非常必要的。当很多年以后,读者再重读或回忆文章时,文章的文字可能已经是多余的了,读者们更关心的是原始数据,但作为文章生成基础原始数据已经很难再组织起来。原始数据,例如气象资料、加速器数据、空间观察数据、构建了科学研究和和出版物存档的主干。重复科学出版物中提到的试验、重新计算科学出版物中给出的结论以及重新验证他们的正确性是基本的要求。原始数据的存在有助于区别虚幻与科学。在研究领域,原始数据经常对其他研究活动的再利用是开放的,例如在欧洲粒子物理研究所CERN质子半径的测量。
这份报告将给大家介绍自然科学领域中“原始数据”的实用性,保存的必要条件以及现在如何进行保存。 ------------------------------ 保存计划,机构的策略和方针 ------------------------------ 我们是包存全部还是只保存经过选择的部分?这里将通过不同的视点来阐述此问题。世界范围内的许多机构正在发展保存的策略和方针,许多发展被重复进行,有的仍在讨论中。本次报告是对关于选择方法的研究,以及由此发展出的解决方案或是正在探讨中的规则进行综述。该综述是德国教育与研究部支持的项目“nestor”
http://www.langzeitarchivierung.de/index.php?newlang=eng
中的一部分。
Hilde
van Wijngaarden
-------------------------------------------------- 数字保存的不同方法(迁移、仿真、uvc
等) ------------------------------- 数字保存包括3个主题:安全存储、保存元数据和永久获取。首先我们必须保证数字对象是存储在安全的媒介上,保证通过适当的程序采取安全措施、备份和更新。为了能够检索已存储的对象,我们必须以保存元数据的形式登记数字对象的信息,并且在现在和将来都要依赖技术措施还原存储对象。运用永久获取方法,需要回答许多问题:在未来我们想看什么,利用什么。我们可以发展不同的策略,但每一种策略都各有利弊。这里将介绍这些策略,指出他们的用途所在,其中会谈到一些实例。除了现有的策略,我们还需要试验和发展新的程序和特别的工具来保证数字存档的可获取性。永久获取的研究与发展需要不断的努力和国际合作。 ------------------------------------------------------------------------------------------------------------------- 案例研究:荷兰国家图书馆的保存策略 ----------------------------------------------------------------------- 作为一个起保存作用的图书馆,荷兰的国家图书馆在10多年前就面临着必须存储数字出版物的问题。随着数字出版物的增长,荷兰国家图书馆决定将数字保存作为他们的一个主要解决的问题。该决定产生了一个可运行的数字存档(e-Depot)以及发展保存功能的一些项目。这里主要介绍两个项目:保存管理者,一种技术元数据监测的工具;用于JPEG的UVC(Universal
Virtual
Computer通用虚拟计算机)。UVC是一种新的用于还原数字对象的方法,它并不依赖现有的平台和格式。我们与IBM合作研发了首台工作的UVC,它将被进一步检验。 ------------------------------------------------------------------------------------------------------------------- 案例研究:荷兰国家图书馆科学电子期刊的保存 --------------------------------------------------------------------- 荷兰国家图书馆数字存档系统e-Depot,自动长期存储着国际上主要出版商的e-journals。自系统开始工作到今天,仅仅是第2年,就已经存储有2百万篇的文章。两个主要出版商,Elsevier
和
Kluwer,在e-Depot中存储了他们的e-journals。因为他们的出版物主要是科学、技术以及医学方面的,所以e-Depot中存储了世界范围内20%的相关领域的出版物。这里会解释一下这种情况产生的原因、e-Depot如何工作、我们与出版商的协议、我们未来的计划是什么等。我们称e-Depot为一个“安全地带”,我们趋向国际合作(安全地带策略),趋向通过认证作为一个所谓的可信任存储体。
|