① DC 元数据在成果地质资料编目中的应用

李 磊 李效广 张良军 郑锦娜 王心华

(天津地质调查中心)

摘 要 本文主要研究了 DC 元数据和成果地质资料编目之间的映射关系,探讨了如何在此基础上基于 XML schema 技术对生成的地质资料核心元数据进行建模,并利用其来构建分布式共享平台体系。

关键词 DC Dublin Core XML schema OAI 地质资料 编目

0 引言

成果地质资料是指各类地质工作或专题研究项目完成时,按相应技术规范的规定和原项目设计要求,以文字、图、表等形式提供的一整套科技文件材料。我国地质资料馆成果地质资料案卷级目录库多采用国土资源部颁布的《地质资料电子目录著录格式规定(试行)》或中国地质调查局发展研究中心制订的规则标准而建,文件级编目采用《原始地质资料清理数据库》系统标准。以这些标准完成的编目,在实现资料检索、传播、共享、服务、利用方面一直起着非常重要作用。然而,此类编目与地学数据库元数据抑或其他文献编目平台无法实现交换。事实上,成果地质资料作为一种地质专业文献,具有文献的共性,与其他文献目录库互为交换是必要的,特别是与地学信息元数据实现共享是必要的。

元数据是关于数据的数据,是关于信息资源的形式、主要内容、存放位置等信息的综合。目前,元数据技术研究已经深入到各个领域,有专业领域的元数据,如关于地理空间数据的数字地理空间元数据、图书馆文献馆藏资源的机读目录。也有适用范围广泛的元数据,如都柏林核心元数据。笔者经过对比各种元数据,认为成果地质资料作为地质信息资源的重要载体,虽然有空间信息,但是其结构和内容并不符合空间数据的标准。成果地质资料作为一类文献资源,虽然可以以机读目录编目,然而机读目录由于其字段复杂,对录入人员专业要求较高,适用类型狭窄,故考虑到与其他类型资源的交换问题,其并不适于作为通用的元数据标准。而都柏林核心元数据(Dublin Core,DC)简单易用,其最初是为描述网络资源,现已发展成可以描述任何信息资源的元数据标准,应用范围广泛,便于组织与数据交换,可以提高检索数据的准确性。

笔者通过研究认为,利用都柏林核心元数据(DC 元数据)编目成果地质资料,可很好地解决异地多源数据共享的问题,会更有利于促进成果地质资料社会化服务。

1 成果地质资料编目与 DC 元数据的映射

1.1 成果地质资料编目

成果地质资料是指物理上的一套地质资料,除了其具有档案的基本编目信息外,还有具体的文件级资料内容信息。根据其内容形式的不同,成果地质资料文件由 8 类资源组成:正文、审批、附图、附表、附件、数据库和软件、多媒体和其他。这些资源信息全部以表的形式存储在成果资料目录数据库中[1]。

以原始地质资料清理数据库为例,成果地质资料案卷级编目主要字段包括馆藏机构编号、馆藏机构名称、资料编号、资料名称、资料类别、资料类型、语种、编写报告单位、编著者、形成(提交)时间、工作程度、密级、关键词、关键词(矿产)、地理坐标、行政区划、内容提要、工作时段,共计 18 个字段;文件级编目的所有 8 类资源的共有字段包括:资料编号和资料名称,其中审批需要增加审批机构和审批日期,附图则需要增加比例尺。

1.2 DC 元数据字段

都柏林核心元数据产生于 1995 年,经过 10 年不断扩展和完善,形成了 15 个基本核心元素,通过限定词对元素进行细化和修饰的元数据方案,用于描述越来越丰富的网络信息。DC 元素依据其所描述内容的类别和范围,可分为三组[2]:①资源内容描述类元数据项 7 个:分别为 Title、Subject、Description、Language、Source、Relation、Coverage;②知识产权描述类元数据项 4 个:Creator、Publisher、Contributor、Rights;③外部属性描述类。元数据项 4 个:Date、Type、Format、Identifier。具体字段的定义参见表 1。

DC 限定词是对 15 个元素的语义进行限定和修饰的词。它的制订遵循著名的向下兼容原则,即修饰词的语义包含于未修饰词中,在范围上对未修饰词的语义进行限定,在深度上对未修饰词的语义进行延伸[3]

1.3 映射关系

笔者通过对比研究,认为:

(1)案卷级编目字段除了Format(格式)外,其余14个基本元素皆可与DC核心元素建立起对应关系。在覆盖范围(Coverage)元素中,由于地质资料兼具时间特征与空间特征,故采用限定词spatial(空间范围)和 temporal(时间范围)对覆盖范围进行描述;此外,由于成果地质资料部分元素具有行业特殊性,需要增加三个自定义字段作为补充,分别为Districts(行政区划)、DataCategory(资料类别)和WorkingDegree(工作程度)。而Relation(关联)与Contributor(其他责任者)在成果资料目录库中无对应字段,需要单独填写。其中Relation(关联)填写的内容为成果地质资料所含的所有文件级内容的唯一标识码,关系为部分为(HasPart),即所描述的案卷级资源在物理或逻辑上包含被参照文件级资源,Contributor(其他责任者)填写数据库录入人员姓名。

(2)文件级的各类资源中,由于各自属性内容有所差别,最终分为三类资源:第一类资源为正文、附表、附件、数据库和软件、多媒体和其他这六类文件级资源,均与 DC 核心元素建立起 4 个对应关系,其中 Format(格式)和 Relation(关联)这两个元素在库中无对应字段。需要说明的是:这里 Format(格式)填写的是地质资料的媒体类型和资源大小。在这六类资源中,数据库和软件、多媒体资源只有源电子文件[1],其余均有源电子文件和存档电子文件。Relation(关联)填写的是文件级资料所对应案卷级资料的唯一标识码,关系为部分于(is part of)。第二类资源为审批资源,其在第一类资源的基础上增加了Creator(创建者)和 Date(日期)两个元素来表示审批机构和审批日期。第三类资源为附图资源,其在第一类资源的基础上增加了自定义字段比例尺(Scale)。

通过将 DC 字段的定义和原始地质资料清理数据库中的字段定义进行比对,最终得出了 DC 元数据与该数据库字段的映射关系,案卷级编目对应关系如表 1 所示,文件级编目对应关系如表 2、3、4 所示,由此确定了成果地质资料核心元数据的元素集。在该核心元素集中,如果映射关系成立,则沿用 DC 元数据的元素名称,若未找到对应关系,则采用自定义元素名称。

表 1 DC 元数据与成果地质资料案卷级编目映射关系表

续表

表 2 DC 元数据与成果地质资料文件级正文、附表、附件、数据库和软件、多媒体和其他资源编目的映射关系表

表 3 DC 元数据与成果资料文件级审批资源编目的映射关系表

表 4 DC 元数据与成果资料文件级附图资源编目的映射关系表

2 实现方法

XML(Extensible Makeup Language)是一种结构化与半结构化数据的标志语言,由互联网联合组织(W3C)所开发和创建,其目的不仅在于满足不断增长的网络应用需求,更是为了确保在通过网络进行交互合作时,具有良好的可靠性和互操作性,XML 作为一种独立于系统的表达数据信息的标记语言,更适合于元数据在网络系统中进行数据交换。

XML Schema 是采用 XML 语法描述,提供描述和控制 XML 文档的一种规范。用于定义 XML 文档中使用的元素、属性和数据类型,简单地讲,就是利用一个通用模式,生成具有不同数据但相同结构的XML 数据文档。Schema 与 XML 文档的关系,相当于类和对象之间的关系。有了 XML Schema,XML 文档的写法就有了限制,利用 XML Schema 对成果地质资料核心元数据进行建模生成的 XML 元数据,可以便于资源在网络系统中进行数据管理,从而更好地实现传输

具体实现过程中可以使用 altova 公司的 XML spy 工具完成成果地质资料核心元数据的建模,生成HTML 或者 Word 形式的 XML schema 文档。基于建模文档,开发人员可以依托相关 xml 技术,比如apache 公司的 XMLBeans[4],实现查询成果资料目录数据库中的对应数据,通过 Schema 来修饰生成需要的 XML 文档,整个过程皆可以用代码实现,无需多次录入数据。最终将生成的 XML 元数据文档以 XML混合数据库(hybird database)形式存储。经过对比研究,作者认为基于 XML schema 技术可很好地实现成果地质资料核心元数据表达。

3 实例

以下是基于 xml 来描述的一条地质资料案卷级目录元数据:

第八届全国地质档案资料学术研讨会文集

“内蒙古阿拉善地区矿产资源潜力评价综合研究”项目是中国地质调查局 1999 年 10 月下达的地质调查综合研究项目(任务书编号:0499201021;项目编号:K1.1.4.4;科研项目编号:DK9902033)。在前人工作基础上,该项目以板块构造、边缘成矿和成矿系统理论为指导,紧紧围绕本区矿产资源评价工作的部署,以野外地质调查为基础,从本区实际出发,重点开展了工作区已知矿点和重要物化探异常区的野外地质调查;开展了区域地球化学背景、层控型朱拉扎嘎式金矿、火山岩型铜金矿和与花岗岩有关的金矿床等的研究工作,进一步厘定了各类矿床的成矿地质条件和控矿因素,明确了找矿标志,归纳了区域成矿规律,筛选了物化遥异常,并在此基础上圈定了找矿有利的预测区,编制了阿拉善地区 1∶50万区域成矿预测图,提出了下一步工作部署建议。

第八届全国地质档案资料学术研讨会文集

第八届全国地质档案资料学术研讨会文集

4 成果地质资料数据共享技术探讨

基于网络的成果地质资料数据共享,主要存在两个问题:首先,成果地质资料分布比较分散,服务方式不尽相同;其次,用户是分布的,其背景、教育程度、熟练程度等相差很大。因此必须研究一种合适的分布式数据的共享体系来整合这些分散的数据资源,为互联网用户提供统一的数据共享服务[5]。

作者经过比较国内外常用的分布式共享平台体系,认为 OAI(open archives initiative)数据资源整合模式比较适合成果地质资料数据共享。OAI 对外提供了开放文档元数据采集协议(OAIMH)。它最主要的目标就是通过元数据采集模式来实现网络上发布信息的不同组织之间的互操作,为其提供一个与应用无关的元数据互操作框架。OAIMH 基于 HTTP 协议,返回的数据采用 XML 格式,所有的存储必须为自己的资源产生 Dublin Core 的元数据以供交换,由此来实现各个节点之间的网络互操作。数据生产者无需完全开放自己的本地资源,只需共享元数据,这样既不用改变本地存储数据的软件结构,又能轻松实现联合检索和数据共享。不失为一种经济的互操作模式,故将成果地质资料目录转换为 DC 元数据能在更大范围内与其他科学数据实现共享交换。由于篇幅限制,对共享平台如何实现不做进一步的论述。

5 结论

用 DC 标准来设计成果地质资料核心元数据完全可行,基于 XML schema 技术可以实现建模,最终生成 XML 元数据文档。最终在基于 OAI 协议的数据资源整合模式下构建分布式共享平台,交换生成的地质资料核心元数据,将能更好地实现成果地质资料的共享与服务,进而能最大限度地发挥地质资料信息的潜在价值,服务整个社会。

参 考 文 献

[1] 李效广等 . 机读目录在成果地质资料管理中的应用前瞻 . 中国地质学会第二届学术研讨会论文集,[C]. 2010

[2] 刘芳,朱沙 . 数字图书馆中基于 XML_RDF 的 DC 元数据描述体系 [J]. 大学图书情报学刊,2005

[3] 盛剑锋 . 电子期刊 MARC 与 DC 编目数据比较 . 图书馆论坛 [J],2008,(2):104 ~ 107

[4] 杨典华,杨志刚 . 基于 XML 和 DC 元数据标准研究教育资源的元数据及其数据传播 . 现代教育技术 [J],2006,(16):57 ~ 67

[5] 诸云强 . 地球系统科学数据共享关键技术研究 M. 北京:科学出版社, 2009:36 ~ 57

② 请问元数据保证文件真实性的原理是什么啊

根据国内外众位学者们对元数据的分析和描述,我们可以发现元数据具有以下特点。首先,它具有动态性。因为元数据是对文件的产生、保管、利用、销毁等整个过程的真实性记录,它随着文件的产生而产生,伴随人们对文件进行的各种管理活动而不断地增加。其次,它具有多元性。本来在信息环境下针对不同的资源类型就已经存在了多种元数据格式,人们往往为了不同层次或角度的应用,又会产生各种各样的元数据格式,从而积累下大量的、格式多样的元数据。再次,它具有数量庞大性。一方面,为了全面真实地反映各种业务活动和个人活动,我们要从多个角度和层次来进行记录;另一方面,为了完整地记录文件管理的整个过程,我们需要记录下各种操作活动,必然会产生大量的元数据信息。明确了元数据的特点,我们就可以有针对性的采取一些方法和措施来进行捕获。 在电子文件管理系统中,元数据一般是通过系统自动记录与手工记录相结合的方式获得的。对于有些元数据,我们可以预先设计好其所对应的标记,将它们标志在所描述的对象上,如对于收文和发文可做不同的标记,文件是否归档、对象是否是文件或是文件的一个组成部分、文件的密级、保管期限等。对于本单位系统发文,系统会自动弹出元数据项目供文件形成者填写,像文件的题名、形成日期、起草人、形成部门、内容提要等;对于外单位系统来文,系统会自动抽取所需的上述相关信息。而文件的另一部分元数据项目则由系统自动生成,如所用的字体、版面格式、逻辑格式与系统的软硬件说明等,而对于在电子文件利用过程中的利用信息也由系统自动记录并作为元数据保存。为保证较高的准确性,元数据须保持紧跟现状的变化。确保元数据准确并维护良好的唯一方法就是尽可能使维护过程自动化。我们不必了解应用程序系统编写的情况,就能看到只依赖过程来维护元数据的结果。一般元数据量通常都很大,最实用的方法是只收集变化,而不是定期刷新整个元数据集,特别是动态性很强的使用信息,应定期追加而不是改变现有的信息。 解素芳 元数据,从定义上讲,是关于数据的数据,或者说是关于数据的结构化数据。元数据作为一个概念提出的时间并不长,但是元数据本身并不是一个新事物。自从有对人类所产生的信息与知识进行分析、分类与管理之日起,元数据就扮演了一个重要的角色。传统的检索工:具,像目录卡片、案卷目录、案卷封面、分类表等都属于元数据的范畴,图书的版权说明、磁盘的标签等也都是元数据。元数据这一概念起源于计算机科学,由Myers在1960年提出,当时是指能够有效描述资料的方式,后来面对电子信息所特有的分散式、变动性与多元性,元数据再度引起更广泛的关注,现在元数据研究的重点主要还是网络环境下数据的描述与数据管理问题。 元数据可以处理各种形式的信息,包括还未电子化和电子化信息,特别是能较好地解决网络环境—下信息的发现、控制和管理问题,因此目前已广泛应用于图书馆、档案馆、电子政务等领域。下面我主要谈谈电子政务系统中元数据的应用。 当前我国正在加紧实施电子政务建设,面对大量而分散的政府信息资源,从政府机关的角度而言,如何组织、控制、管理网络环境下的信息资源,并提供高效优质的信息服务是其努力的目标;对广大用户而言,如何利用网络跨越政府机关多层组织的障碍,搜寻、判断、获取有价值的政府信息则是其关注的焦点。因此利用元数据对政府信息做更深一步的描述和管理,发展新一代获取政府信息的检索机制,显得尤其重要。 目前政府信息的元数据格式主要有两种:GILS (Government lnformation Locater Service,政府信息指引服务)和DC(Dublin Core,都柏林核心元数据集)。其中依照GILS发展信息指引服务的国家有美国、加拿大、日本等;而英国、澳大利亚、新西兰等国在电子政务建设中,则是以DC为基础制定了用于电子政务系统的元数据集。 李新利 目前,在档案界关于元数据的解释有很多种:国际档案理事会《电子文件管理指南 (1997)》中指出:“元数据是关于文件的背景信息和结构的数据。”澳大利亚《联邦机构电子文件管理元数据标准(1999)》对元数据的定义如下:“元数据是关于电子文件背景信息的著录信息”。英国国家档案馆(电子文件管理指南(1999))中所提出的定义:“元数据是单份电子文件和文件组合的背景及其相互关系的结构化著录数据”。 从上面列举的定义可以看出,元数据与著录信息或著录数据之间有着密切的关系,但是,二者所描述的范围是否完全等同呢?事实上,二者所描述的内容范围并不完全一致,而是相互交叉的:系统自动著录的元数据中有些可以直接作为著录信息,而有些著录信息也是元数据未加描述的,如对文件内容特征的概括说明等,而且,元数据的描述范围要比电子文件的著录范围宽泛的多。国际社会就此还开展了一些电子文件元数据研究项目,形成了不同类型的元数据结构体系(有的称为“元数据模板”),如美国《匹兹堡大学元数据研究项目》;澳大利亚莫纳西大学的苏·麦克凯米什负责开展的《网络化环境中为发挥信息资源的行政、社会和文化作用,建立文件保管无数据标准》;加拿大哥伦比亚大学的露西亚娜·杜兰蒂主持的InterPARES项目(《电子系统中文件冀实性的永久保障国际研究项目》)等等。它们的划分标准各不相同,由此产生了不同的元数据模板。但无论其如何划分,都是尽可能地包括所有描述文件、文件集合、机构、系统以及与之相关的各种信息。 元数据的应用不仅减少了大量手工著录的工作量,而且对于保证电子文件的真实可靠也有着独特的优势。建立电子文件管理系统,对电子文件的形成、传递、保管、利用等各个环节的运行情况进行全程跟踪记录,随时将关于文件形成时间、地点、人员、活动、系统、结构和内容等方面的有关信息记录下来,而且,元数据一经形成就被封装起来,使其只能被写入和读取,不能被改动和删除,形成的元数据与文件一并保存,可以作为检验电子文件真实性与可靠性的依据和凭证。 卢晓慧 元数据一词是随着Internet的发展而产生的。Internet的快速发展,使网上大量的信息需要有效地组织,以便更好的被检索和使用。虽然有关的网络查询工具(如搜索引擎)能自动从网络资源中提取信息并编制索引供检索,但我们常常发现其查准率和查全率较低,查找到的实际相关有用信息并不多。而传统的信息组织方法非专业人员难以完全掌握,而对专业人员来说,要完成数量巨大的网络资源的组织与整理而所需的人力和成本又太大。我们需要更有效、更简便、更准确的组织方式来描述整理网上资源,元数据结构就是在这样的情况下被提出来的。 随着信息网络的迅速发展,信息的主要形式正逐步从传统的印刷型资料过渡到网络化、多媒体化和分布式的数字化信息资源,因此其描述与发现机制也随之发生着深刻的变化。因此,网络信息的描述与发现也就成为了受人关注和需努力解决的问题。而元数据正是被用来描述Internet上的数据和资源的属性的。通过元数据,能促进Internet上的信息的组织和发现,进行信息的识别、定位、发现、描述和选择等。同时也能够了解某个Internet信息站点的资源类型,某个政务信息Web页的标题、作者、主题、关键词及内容摘要等。分布在全球Inter- net上的Web像是一个庞大的有许许多多电子文献的图书馆,它的信息资源需要有序的、按一定标准组织起来,用如像图书馆的目录去组织和查找。而元数据在本质上具有电子目录的功能,它可以揭示各类型电子信息的内容和其他特征,进而达到网络信息的组织、分类、索引等目的。 任凤仙 近几年来,互联网的发展异常迅速,网络中的信息资源也在爆炸性地增加,在这种情况下,信息匮乏的问题可以说是已经解决了,但是网上的信息种类繁多,浩如烟海,不可避免的带来了一个亟需解决的新问题,即如何从中找到自己所需的信息。其实这并不是一个全新的问题。可以回想一下在图书馆查资料的情形。我们想要查找的资料可能是一篇特定的著作、期刊中一篇特定的论文,某作者的论著,或某出版社出版的书刊,也可能我们没有具体的信息,只是希望找到与某一主题相关的内容。图书馆里收藏着众多藏书,要从中找到自己所需的资料,就要求图书馆中的藏书必须满足一些条件,首先,图书馆中的藏书必须是按照一定的分类标准进行分类,并且按照一定的顺序排架的,其次,很多时候我们还需要有目录、索引等工具的辅助。在网络上查找资料的情况与图书馆类似,我们不能采用大海捞针的方法一个个网页看过来,可行的方法是借鉴人们处理图书馆藏书的原理来解决这个问题,其中的关键就是元数据的使用。 国家图书馆的多数据库检索中的多字段检索的元数据项主要有主题、责任者、题名、出版者、语言、年代、资料类型和定位等项;而英国国家图书馆书目的元数据元素包括search text、search type, search type包括title、author(creator browse)、 subject browse、call number browse、lccn—is— bn—issn、keyword、command keyword等。 于慧敏 首先要明确元数据是抽象概念。目前关于元数据的定义很多,比较常规的是:元数据是关于数据的数据(data about data),这个定义过于简洁和宽泛。元数据是描述某种类型资源(或对象,obiect)的属性,并对这种资源进行定位和管理、同时有助于数据检索的数据。当人们描述现实世界的现象时,就会产生抽象信息,这些抽象信息便可以看作是元数据。在数据设计过程中,也使用抽象术语描述现实世界的各种现象。比如人们把人物、地点、事物和数字组织或指定为职员、顾客或产品数据。在软件设计过程中,数据库结构可以概括为开发和设计人员能够理解的元数据分类方案。表或表单由对象派生出来,而对象又由类派生。在元数据中有多个抽象概念级别。可以描述一个数据实例,然后对该描述本身进行描述,接着再对后一个描述进行描述,这样不断重复,直到达到某个实际限度而无法继续描述为止。通常情况下,软件开发中使用的元数据描述可扩展为二至三级的抽象概念,就像集合中一层一层的真子集,我们可以这样理解,元数据是不可再分的数据,是最小的数据单元。 相对于元数据的概念,其用途就比较易理解,可以像使用任何类型的应用程序或数据设计元素一样使用元数据类型和实例信息。将设计信息表达为元数据,特别是标准元数据,可以为再次使用、数据检索、共享和多工具支持提供更多的可能性。就海量信息利用而言,对数据检索有很高的要求,理论上说元数据是不可再拆分的数据,所以提高了检索的准确性。这里还要特别指出一点,共享元数据是未来的大趋势,共享元数据是跨异类平台和开发环境部署数据和应用程序结构的一种方法。它能提供公用定义,使得工具和应用程序可以解释相同的元数据定义,并将它转化为应用程序特定的结构。元数据是一个集成点,因为它是抽象概念,包含一些基本的详细信息,不管实现策略是否改变,这些信息都保持不变。这种灵活性使元数据非常适用于设计工作,因为它可以将设计与实现分离开来。当使用预定义的元数据时,可以用最适合需要的开发工具实现具体的设计。共享元数据对档案信息的管理利用应该具有很大的意义,依托于互联网的数字档案馆建设需要共享元数据,避免重复信息,真正地做成大型数据库,便于社会使用。 其实对元数据管理与共享利用的过程就是标准化的过程,就档案界来说,必须在彼此认同的标准指导下才能实现数字档案馆计划。伴随着档案界研究与利用元数据,相信未来的档案信息世界会更精彩。 刘彩霞 元数据(Metadata)是为了有效地解决网络资源检索所存在的问题而产生的。其本质含义是关于数据的数据,它用来描述原始数据的特征和属性,例如对文献信息资源而言,元数据可以是目录、索引、摘要及主题等文献特征和属性。元数据所包含的数据元素集可以用来描述信息对象的内容和位置,使因特网上的Web页面更像一个图书馆内整齐摆放的文献,而不是—堆满地乱扔的书籍,以便能在网络中方便地查找和检索。 由于网上数字资源的形态各异,既有论文、会议录等普通电子文本,也有图像、声音、网页等,不同形式的数字资源对数据格式的要求也不同,因此,目前有多种描述网络数字资源的元数据标准。国外已经产生并得到实际应用或试验的元数据标准就有二十余种。 我国在中文元数据建设方面不同单位之间还未达成共识,没有采取联合、协作、共享的策略。例如,中文元数据方案中相关数据项的数量相差较大,国家图书馆联合其他单位建立的“中文核心元数据规范”使用了近80个数据项,清华大学使用的元数据项则只有16个,且主要以DC元数据集为主要依据。因此中文元数据标准化和规范化目前还难以实现。 就今后我国元数据的建设而言,应加强中文元数据标准化的研究,学习和借鉴国际上先进、通用的元数据标准或应用方案,在充分考虑中文资源应用特点的前提下,制定出符合中文资源应用需求的、单位之间、社会各界共享信息所需要的、大众化的元数据标准。 陈晓 元数据,存在于各个领域。其定义随着不同领域的理解不同而不同。这里,笔者参考匹兹堡项目研究成果,从档案学的角度透视比特时代的“元数据”。 元数据,用来描述一份文件的电子信息,是数据的数据,是信息的信息。匹兹堡项目运用元数据来保证电子文件的证据功能,将其聚合在几个同中心的元数据层中。这些元数据,系统能自动捕获一部分,而其余的则靠人工输入。元数据的构成元素,分为处理层(handle)、术语和条件层(terms and conditions)、 结构层 (structure)、 背景层(context)、内容层(content)和使用历史层(history of use)。电子文件的检索通常是以文件为单位的,因此,为了对文件进行定位和检索,元数据是必需的。虽然元数据的各层必须出现在系统中,但不是每层所有的元素都是必要的。为了检索文件,组织需要确定元数据的数量和种类,确保文件受到保护,不会被随意更改和删除。对于纸质文件的检索,一般是先确定可能装有所需文件的相关卷宗,再彻底一份份检查这些相关的卷宗。在20世纪早期,登记室工作制度为纸质文件记录了大量的元数据。笔者联想到我国的“全宗卷”。《档案管理学》注:全宗卷是“由在全宗管理活动过程中所形成的管理记录性材料构成的一个案卷”,它实质上“是全宗管理过程活动中所形成的‘档案’,是档案管理活动的原始记录”,是档案的档案。它单独另行存入并实施统一管理,不能与全宗混在一起,更不能将其作为全宗内的一个案卷对待。与之相比,二者具有相似的特点: 1.二者都是档案或文件的管理与检索工具。全宗卷是适应纸质环境中的档案管理而产生的,元数据是适应比特时代的电子文件管理而形成的。通过它们,可以对档案或文件进行合理的管理,起到著录说明、查找利用、节约人力物力、方便工作的开展。 2.二者都是被单独管理的。全宗卷要求要单独存放,不能作为原全宗的一个案卷。元数据与文件虽然封装在一个实体内,逻辑上作为整体保管,但物理上是与文件分开,单独保管的。 因此,笔者赞成这种观点,“元数据”并不是新出现的事物。在我国纸质环境下,“元数据”思想已经有了萌芽。“元数据”是与比特时代的文件特点相结合而产生的一种工具。通过捕获文件的背景信息,记录文件形成、办理、保管、利用及最后的处置过程中的文件工作,起到说明、管理、检索和凭证等多重作用。比特时代,文件的证据作用成为人们最关注的问题,匹兹堡项目顺应社会趋势,选择集中研究证据功能所需的元数据,认为应该捕获的元数据包括与文献相关的结构信息、内容信息、背景信息、存取和保管期限的业务规则信息。文件和元数据的同时捕获,尤其系统能自动捕获信息,大大改变了元数据的质量。匹兹堡项目建议,完成元数据和文件内容的同时捕获,可以采取“封装” (encapsulation)方式,即将文件和它的元数据放在一个计算机文档里。元数据与文件清晰相连,确保文件及其元数据不会随着时间的变化而分离,保证文件不被随意的更改与破坏。同时,当检索文件时,因为文件与所有相关信息都被检索出来,文件自身可以进行“自我说明”。大多数的元数据并不是唯一的对应于某个文件,而是应用于一系列文件。所以,产生了大量存贮在文件保管系统中的拷贝信息。给元数据的管理和控制带来了很大的不方便。这个问题需要得到进一步的解决。 比特时代,文件的不同功能则需要不同的元数据加以保证。研究元数据,一定要先明白元数据所对应的功能。这是个新兴的热点问题,期待更多的关注。

③ 以下哪些属于政务信息资源目录体系与交换体系的系统构成

政务信息资源目录体系与交换体系的系统构成有:政务信息资源目录体系主要由政务信息资源目录服务系统组成,同时还具备软硬件、网络的支撑环境,以及标准与管理规范建设和安全保障。交换体系系统由三个逻辑层组成:数据层、业务对象层、客户层。数据层位于系统底层,主要处理业务对象层对数据提出的请求和存储各类政务资料目录数据。业务对象层为系统的核心,处理如何访问数据以及如何将请求的数据分发到客户端。客户层向用户提供应用的接口,运行在Web浏览器环境下,通过系统提供的功能与后台数据库交互实现各项信息查询和数据的维护。Web服务接口提供用户通过消息实现目录服务,HTTP接口提供用户直接通过浏览器查询和管理目录服务。HTTP接口一般是目录体系中必须实现的,而消息访问接口可以根据各自的实际情况选择实现。
电子政务目录体系和交换体系的跨部门共享数据相容性、业务流程协同性等问题,提出一种由服务模式、技术架构、信息资源和管理机制组成的可行解决总体框架;抽象出资源共享式、政务协同式、辅助决策式和公共服务式四种服务模式;给出了一种基于核心元数据实现资源目录和基于UDDI技术实现服务目录、基于Web服务技术和面向消息中间件技术的交换体系技术方案。

政务信息资源目录一般是由政务信息资源分类目录和信息资源目录组成的(如图2所示)。分类目录由按不同应用主题建立的信息分类体系组成。政务信息资源目录有基础信息目录、部门信息资源目录、应用共享信息资源目录等,通常由描述信息资源的名称、主题、摘要或数据元素、分类、来源、提供部门等元数据组成。
政务信息资源目录遵循相应的信息资源描述标准规范编制,如描述网络资源的都柏林核心元数据DC、美国政府信息资源元数据GISL、《政务信息资源目录体系》国家标准等标准规范,主要包括政务信息资源分类标准、唯一标识符编码、核心元数据等。

④ 什么是政务信息资源政务信息资源目录有哪些

政务信息资源是指政..府中与信息采集能力,信息处理能力,信息利用能力,以及信息交流能力有关的一切资源,包括人员、设备、资金、信息及技术。换而言之,政务信息资源并不仅仅指政..府信息而言,其涵义和涉及的范围比信息本身更要广泛得多。相应地,政务信息资源的管理也包括对人员、设备、资金及技术的管理。政务信息资源看作是等同于政..府.部.门的人力资源、物质资源和财务资源的组织资源,政务信息资源管理从支持政..府职能发展到政府的管理职能,同政..府的其他重要职能一样重要。