1. 元数据

元数据是“关于数据的数据”,存在于电子信息环境中,用于描述资源的属性,呈现其关系,支持资源发现、管理与有效利用(徐筱红,2006),是对所采集到的数据的说明。一般来说,它有两方面的用途:首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据;其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在塔里木河流域生态环境动态监测及辅助决策支持系统综合数据库系统中,元数据机制主要支持以下几类系统管理功能:①描述哪些数据在综合数据库中;②定义要进入数据库中的数据和从数据库中产生的数据;③记录并检测系统数据一致性的要求和执行情况;④衡量数据质量。

(一)元数据分级与特征

1.元数据分级

基本元数据:提供地理数据源基本文档所需要的最少的元数据元素集。

完全元数据:提供完整的地理数据源(单独的数据集、数据集系列、各种地理要素)文档所需要的必选的和可选的元数据元素集。它完整地定义全部元数据,以便标识、评价、摘录、使用和管理地理信息。

2.元数据特征

(1)名称:赋给元数据实体或元素的标记。

(2)标识码:计算机中使用的定义每个元数据实体和元素的唯一代码。代码结构为:XXXXXX

前2位为元数据子集,2位数字码;中间2位为元数据实体/独立元素,2位数字码;后2位为元数据实体包含的元素,2位数字码。

(3)定义:对元数据实体和元素的说明。

(4)性质:说明元数据实体或元素是否总是出现,或有时出现的描述符。描述符分别为:M-必选;C-一定条件下必选;O-可选。

(5)条件:说明何种条件下元数据子集、实体或元素是必选的。如果对所说明的条件成立,那么该子集、实体或元素就是必选的。

(6)最大出现次数:指定元数据实体或元素在实际使用时,可能重复出现的最大次数。只出现一次的表示为“1”,重复出现的表示为“N”。

(7)数据类型:表示元数据元素的一组不同的值,例如,“文本”、“整型”、“短语”、“坐标串”、“实型”和“日期”。

(8)值域:指定每个元数据元素的取值范围。“任意长文本”表示所述内容不受限制,实型数和基于代码的整型数等只能使用一个限定的(闭合的)值域内的值。

(二)元数据库主要内容

塔里木河流域生态环境动态监测系统的元数据包括数字影像图、数字栅格图、数字高程模型、数字线划图等。大部分数据都有相应的国家或行业元数据标准规范,有国家或行业标准的按照标准规范采集;没有规范的,按照元数据的分级特征进行定义。主要包括有关数据源、数据分层、成果归属、空间参照系、数据质量(包含数据精度和数据评价)、数据更新、图幅接边等方面的信息(周骋等,2006)。其主要内容描述如下:

(1)标识信息:是唯一标识数据集的元数据信息。包括数据集名称、发布时间、版本、语种、摘要、现状、空间范围(地理范围、时间范围)、表示方式、空间分辨率、信息类别。

(2)数据质量信息:是数据集质量的总体评价。包括数据集内容完整性说明、数据集在概念、值域、格式和拓扑关系等方面的一致性程度、位置精度(空间位置绝对精度和相对精度)、时间精度(表示时间的精确程度、现势性、有效性)、属性精度(数据集属性分类正确性、属性值的精度和正确性)、数据质量保证措施。

(3)数据字典信息:包含数据集应用、数据源及生产数据集时所用工艺方法等信息。

(4)空间参照系信息:数据集使用的空间参照系统的说明。包括基于地理标识的空间参照系统、基于坐标的空间参照系统。

(5)内容信息:描述数据集的主要内容。包括主要要素类型名称及相应的属性名称、影像数据集内容概述(波长、波段、灰阶等级、合成处理方式)、栅格数据集内容概述(格网尺寸、格网尺寸单位、格网行列数、格网起始点坐标)。

(6)元数据参考信息:包括元数据发布或更新的时间,以及建立元数据单位的联系信息。

以上6类由两个公共数据类型联系,公共数据类型包括:

(1)覆盖范围信息:数据集的空间范围(经纬度坐标、地理标识符)、时间范围(起始时间、终止时间)、垂向范围(最小垂向坐标值、最大垂向坐标值、计量单位)。

(2)负责单位联系信息:与数据集有关的单位标识(负责单位名称、联系人、职责)和联系信息(电话、传真、通信地址、邮政编码、电子信箱地址、网址)。

(三)元数据入库

元数据信息是一个纯文本文件,在生产时采集了多项数据,它是与图形数据、属性数据紧密联系在一起的,按照每幅图一个文本文件存储。为了实现数据库系统中元数据与数据体的集成化管理,以及元数据与数据体的一体化相互检索查询,需将元数据信息空间化。采取的技术方法就是将元数据文件与图幅结合表联系起来,将每一幅图形的区域作为一个目标对象,所采集的多项元数据信息作为其属性项,构成一个以图幅结合表为基础的矢量格式元数据集。同图形数据坐标系统一样,元数据采用地理坐标系统,整个流域则以Coverage格式整体存储,数据处理完成后全部导入到Oracle9i数据库中。

2. DC 元数据在成果地质资料编目中的应用

李 磊 李效广 张良军 郑锦娜 王心华

(天津地质调查中心)

摘 要 本文主要研究了 DC 元数据和成果地质资料编目之间的映射关系,探讨了如何在此基础上基于 XML schema 技术对生成的地质资料核心元数据进行建模,并利用其来构建分布式共享平台体系。

关键词 DC Dublin Core XML schema OAI 地质资料 编目

0 引言

成果地质资料是指各类地质工作或专题研究项目完成时,按相应技术规范的规定和原项目设计要求,以文字、图、表等形式提供的一整套科技文件材料。我国地质资料馆成果地质资料案卷级目录库多采用国土资源部颁布的《地质资料电子目录著录格式规定(试行)》或中国地质调查局发展研究中心制订的规则标准而建,文件级编目采用《原始地质资料清理数据库》系统标准。以这些标准完成的编目,在实现资料检索、传播、共享、服务、利用方面一直起着非常重要作用。然而,此类编目与地学数据库元数据抑或其他文献编目平台无法实现交换。事实上,成果地质资料作为一种地质专业文献,具有文献的共性,与其他文献目录库互为交换是必要的,特别是与地学信息元数据实现共享是必要的。

元数据是关于数据的数据,是关于信息资源的形式、主要内容、存放位置等信息的综合。目前,元数据技术研究已经深入到各个领域,有专业领域的元数据,如关于地理空间数据的数字地理空间元数据、图书馆文献馆藏资源的机读目录。也有适用范围广泛的元数据,如都柏林核心元数据。笔者经过对比各种元数据,认为成果地质资料作为地质信息资源的重要载体,虽然有空间信息,但是其结构和内容并不符合空间数据的标准。成果地质资料作为一类文献资源,虽然可以以机读目录编目,然而机读目录由于其字段复杂,对录入人员专业要求较高,适用类型狭窄,故考虑到与其他类型资源的交换问题,其并不适于作为通用的元数据标准。而都柏林核心元数据(Dublin Core,DC)简单易用,其最初是为描述网络资源,现已发展成可以描述任何信息资源的元数据标准,应用范围广泛,便于组织与数据交换,可以提高检索数据的准确性。

笔者通过研究认为,利用都柏林核心元数据(DC 元数据)编目成果地质资料,可很好地解决异地多源数据共享的问题,会更有利于促进成果地质资料社会化服务。

1 成果地质资料编目与 DC 元数据的映射

1.1 成果地质资料编目

成果地质资料是指物理上的一套地质资料,除了其具有档案的基本编目信息外,还有具体的文件级资料内容信息。根据其内容形式的不同,成果地质资料文件由 8 类资源组成:正文、审批、附图、附表、附件、数据库和软件、多媒体和其他。这些资源信息全部以表的形式存储在成果资料目录数据库中[1]。

以原始地质资料清理数据库为例,成果地质资料案卷级编目主要字段包括馆藏机构编号、馆藏机构名称、资料编号、资料名称、资料类别、资料类型、语种、编写报告单位、编著者、形成(提交)时间、工作程度、密级、关键词、关键词(矿产)、地理坐标、行政区划、内容提要、工作时段,共计 18 个字段;文件级编目的所有 8 类资源的共有字段包括:资料编号和资料名称,其中审批需要增加审批机构和审批日期,附图则需要增加比例尺。

1.2 DC 元数据字段

都柏林核心元数据产生于 1995 年,经过 10 年不断扩展和完善,形成了 15 个基本核心元素,通过限定词对元素进行细化和修饰的元数据方案,用于描述越来越丰富的网络信息。DC 元素依据其所描述内容的类别和范围,可分为三组[2]:①资源内容描述类元数据项 7 个:分别为 Title、Subject、Description、Language、Source、Relation、Coverage;②知识产权描述类元数据项 4 个:Creator、Publisher、Contributor、Rights;③外部属性描述类。元数据项 4 个:Date、Type、Format、Identifier。具体字段的定义参见表 1。

DC 限定词是对 15 个元素的语义进行限定和修饰的词。它的制订遵循著名的向下兼容原则,即修饰词的语义包含于未修饰词中,在范围上对未修饰词的语义进行限定,在深度上对未修饰词的语义进行延伸[3]

1.3 映射关系

笔者通过对比研究,认为:

(1)案卷级编目字段除了Format(格式)外,其余14个基本元素皆可与DC核心元素建立起对应关系。在覆盖范围(Coverage)元素中,由于地质资料兼具时间特征与空间特征,故采用限定词spatial(空间范围)和 temporal(时间范围)对覆盖范围进行描述;此外,由于成果地质资料部分元素具有行业特殊性,需要增加三个自定义字段作为补充,分别为Districts(行政区划)、DataCategory(资料类别)和WorkingDegree(工作程度)。而Relation(关联)与Contributor(其他责任者)在成果资料目录库中无对应字段,需要单独填写。其中Relation(关联)填写的内容为成果地质资料所含的所有文件级内容的唯一标识码,关系为部分为(HasPart),即所描述的案卷级资源在物理或逻辑上包含被参照文件级资源,Contributor(其他责任者)填写数据库录入人员姓名。

(2)文件级的各类资源中,由于各自属性内容有所差别,最终分为三类资源:第一类资源为正文、附表、附件、数据库和软件、多媒体和其他这六类文件级资源,均与 DC 核心元素建立起 4 个对应关系,其中 Format(格式)和 Relation(关联)这两个元素在库中无对应字段。需要说明的是:这里 Format(格式)填写的是地质资料的媒体类型和资源大小。在这六类资源中,数据库和软件、多媒体资源只有源电子文件[1],其余均有源电子文件和存档电子文件。Relation(关联)填写的是文件级资料所对应案卷级资料的唯一标识码,关系为部分于(is part of)。第二类资源为审批资源,其在第一类资源的基础上增加了Creator(创建者)和 Date(日期)两个元素来表示审批机构和审批日期。第三类资源为附图资源,其在第一类资源的基础上增加了自定义字段比例尺(Scale)。

通过将 DC 字段的定义和原始地质资料清理数据库中的字段定义进行比对,最终得出了 DC 元数据与该数据库字段的映射关系,案卷级编目对应关系如表 1 所示,文件级编目对应关系如表 2、3、4 所示,由此确定了成果地质资料核心元数据的元素集。在该核心元素集中,如果映射关系成立,则沿用 DC 元数据的元素名称,若未找到对应关系,则采用自定义元素名称。

表 1 DC 元数据与成果地质资料案卷级编目映射关系表

续表

表 2 DC 元数据与成果地质资料文件级正文、附表、附件、数据库和软件、多媒体和其他资源编目的映射关系表

表 3 DC 元数据与成果资料文件级审批资源编目的映射关系表

表 4 DC 元数据与成果资料文件级附图资源编目的映射关系表

2 实现方法

XML(Extensible Makeup Language)是一种结构化与半结构化数据的标志语言,由互联网联合组织(W3C)所开发和创建,其目的不仅在于满足不断增长的网络应用需求,更是为了确保在通过网络进行交互合作时,具有良好的可靠性和互操作性,XML 作为一种独立于系统的表达数据信息的标记语言,更适合于元数据在网络系统中进行数据交换。

XML Schema 是采用 XML 语法描述,提供描述和控制 XML 文档的一种规范。用于定义 XML 文档中使用的元素、属性和数据类型,简单地讲,就是利用一个通用模式,生成具有不同数据但相同结构的XML 数据文档。Schema 与 XML 文档的关系,相当于类和对象之间的关系。有了 XML Schema,XML 文档的写法就有了限制,利用 XML Schema 对成果地质资料核心元数据进行建模生成的 XML 元数据,可以便于资源在网络系统中进行数据管理,从而更好地实现传输

具体实现过程中可以使用 altova 公司的 XML spy 工具完成成果地质资料核心元数据的建模,生成HTML 或者 Word 形式的 XML schema 文档。基于建模文档,开发人员可以依托相关 xml 技术,比如apache 公司的 XMLBeans[4],实现查询成果资料目录数据库中的对应数据,通过 Schema 来修饰生成需要的 XML 文档,整个过程皆可以用代码实现,无需多次录入数据。最终将生成的 XML 元数据文档以 XML混合数据库(hybird database)形式存储。经过对比研究,作者认为基于 XML schema 技术可很好地实现成果地质资料核心元数据表达。

3 实例

以下是基于 xml 来描述的一条地质资料案卷级目录元数据:

第八届全国地质档案资料学术研讨会文集

“内蒙古阿拉善地区矿产资源潜力评价综合研究”项目是中国地质调查局 1999 年 10 月下达的地质调查综合研究项目(任务书编号:0499201021;项目编号:K1.1.4.4;科研项目编号:DK9902033)。在前人工作基础上,该项目以板块构造、边缘成矿和成矿系统理论为指导,紧紧围绕本区矿产资源评价工作的部署,以野外地质调查为基础,从本区实际出发,重点开展了工作区已知矿点和重要物化探异常区的野外地质调查;开展了区域地球化学背景、层控型朱拉扎嘎式金矿、火山岩型铜金矿和与花岗岩有关的金矿床等的研究工作,进一步厘定了各类矿床的成矿地质条件和控矿因素,明确了找矿标志,归纳了区域成矿规律,筛选了物化遥异常,并在此基础上圈定了找矿有利的预测区,编制了阿拉善地区 1∶50万区域成矿预测图,提出了下一步工作部署建议。

第八届全国地质档案资料学术研讨会文集

第八届全国地质档案资料学术研讨会文集

4 成果地质资料数据共享技术探讨

基于网络的成果地质资料数据共享,主要存在两个问题:首先,成果地质资料分布比较分散,服务方式不尽相同;其次,用户是分布的,其背景、教育程度、熟练程度等相差很大。因此必须研究一种合适的分布式数据的共享体系来整合这些分散的数据资源,为互联网用户提供统一的数据共享服务[5]。

作者经过比较国内外常用的分布式共享平台体系,认为 OAI(open archives initiative)数据资源整合模式比较适合成果地质资料数据共享。OAI 对外提供了开放文档元数据采集协议(OAIMH)。它最主要的目标就是通过元数据采集模式来实现网络上发布信息的不同组织之间的互操作,为其提供一个与应用无关的元数据互操作框架。OAIMH 基于 HTTP 协议,返回的数据采用 XML 格式,所有的存储必须为自己的资源产生 Dublin Core 的元数据以供交换,由此来实现各个节点之间的网络互操作。数据生产者无需完全开放自己的本地资源,只需共享元数据,这样既不用改变本地存储数据的软件结构,又能轻松实现联合检索和数据共享。不失为一种经济的互操作模式,故将成果地质资料目录转换为 DC 元数据能在更大范围内与其他科学数据实现共享交换。由于篇幅限制,对共享平台如何实现不做进一步的论述。

5 结论

用 DC 标准来设计成果地质资料核心元数据完全可行,基于 XML schema 技术可以实现建模,最终生成 XML 元数据文档。最终在基于 OAI 协议的数据资源整合模式下构建分布式共享平台,交换生成的地质资料核心元数据,将能更好地实现成果地质资料的共享与服务,进而能最大限度地发挥地质资料信息的潜在价值,服务整个社会。

参 考 文 献

[1] 李效广等 . 机读目录在成果地质资料管理中的应用前瞻 . 中国地质学会第二届学术研讨会论文集,[C]. 2010

[2] 刘芳,朱沙 . 数字图书馆中基于 XML_RDF 的 DC 元数据描述体系 [J]. 大学图书情报学刊,2005

[3] 盛剑锋 . 电子期刊 MARC 与 DC 编目数据比较 . 图书馆论坛 [J],2008,(2):104 ~ 107

[4] 杨典华,杨志刚 . 基于 XML 和 DC 元数据标准研究教育资源的元数据及其数据传播 . 现代教育技术 [J],2006,(16):57 ~ 67

[5] 诸云强 . 地球系统科学数据共享关键技术研究 M. 北京:科学出版社, 2009:36 ~ 57

3. 什么是元数据(MetaData)及

了解元数据,可以看下下面这篇文章,是一个90后的小美女写的,通俗易懂。

近几年,随着90后群体逐步迈入职场,逐渐出现在社会大众的视野当中。本文出自一名90后美女程序员之手,他们是极具个性的一代,他们这代技术人的新奇想法,正是现代企业需要的创新源泉…

关于作者:

龚菲 普元信息大数据产品部 90后美女程序员

公司大数据治理正做得风生水起,各种核心产品在国内市场数一数二,终极大BOSS们将数据治理方面的经验总结成文章,篇篇干货,堪称经典。(有兴趣的同学可以看下公众号的历史文章,不过据说有一批干货文章还没发表出来,敬请期待)。作为尚未正式入职的小菜鸟,我也只能在极浅的层面发表一些我自己的看法…

我将文章分为两大部分,第一部分介绍元数据概念,第二部分从几个方面说明元数据管理的应用,最后一部分总结一下元数据的重要性,仅代表我的一些个人观点,还请各位前辈们不要见笑。

一、元数据什么鬼?

我入职的时候刚好赶上公司的元数据产品升级换代,同事们的研发气氛正火热,作为新入职菜鸟,总得先了解一下元数据概念,不然日后怎么和小伙伴们愉快地玩耍,于是查找国内外相关材料:

一段时间之后有了一些知识积累,才发现用“关于数据的数据”来给元数据下定义确实再准确不过了,但同时也略微抽象,新人难于快速理解,待到上周我们数据治理专家从心理学的角度来阐述元数据之后,我终于也算理解了元数据到底是个啥,今天也算是站在“巨人”的肩膀上,用一种更简单的方式来回答“元数据究竟是什么”这个问题…

元数据是关于数据的描述,存储着关于数据的信息,为人们更方便地检索信息提供了帮助。咦?检索信息?小蝌蚪找妈妈的过程也是一个检索信息的过程,是不是看懂这个故事就能懂元数据是什么了?

池塘里有一群小蝌蚪,他们看见鲤鱼妈妈在教小鲤鱼捕食,就迎上去,问:“鲤鱼阿姨,我们的妈妈在哪里?”

此时蝌蚪们意识到,不对啊,我们的数据库里不是应该存在着一张Mother表吗,但是蝌蚪们竟然对这张表一无所知,不知道有什么字段,也不知道各个字段对应的具体数值:

鲤鱼妈妈说:“你们的妈妈有四条腿,宽嘴巴。你们到那边去找吧!”

鳄鱼笑着说:“你们的妈妈有两只大眼睛,披着绿衣裳。你们到那边去找吧!”…

乌龟笑着说:“我不是你们的妈妈,你们的妈妈肚皮是白的,到前面去找吧。”…

青蛙听了“各各”地笑起来,说“唉!傻孩子,我就是你们的妈妈呀”

整个过程可以看成是Mother这张表逐步完善的过程,数据来源分别是鲤鱼妈妈、鳄鱼妈妈和乌龟妈妈,如下图所示:

对蝌蚪们最终获取到的信息进行进一步抽象,就可以形成一种“元数据”,该元数据描述了Mother这张表的结构:

刚才不是说元数据能为检索信息提供帮助吗,那是不是也说明元数据能为小蝌蚪找妈妈提供帮助?我们将在第二部分试着对这个故事进行改编,详细介绍小蝌蚪利用元数据快速找到妈妈的过程。

二、元数据管理的应用

通常一款元数据管理工具应具备元模型设计、元数据采集、元数据分析、数据地图展现等核心功能,我们试着改编小蝌蚪找妈妈这个故事,在改编的过程中理解这几个核心功能,前提是我们假设所有动物共同构成了一个庞大的数据体系,小蝌蚪们Mother的具体数据已经存在于此体系之中(鲤鱼系统、鳄鱼系统、乌龟系统)。

1、元模型设计

先解释一下元模型。如果说元数据是对数据的描述,那么元模型就是对元数据的描述,是对元数据的进一步抽象,三者的关系如下图所示:

再讲一下元模型设计的过程。首先获取到系统中的所有元数据,将这些元数据汇总并进行合理规划,进一步抽象成元模型,从一定角度来说,可以把这个抽象的过程看成元模型设计的过程。

元模型定义了各种元数据的结构以及元数据之间的关系,是元数据管理的基础,也就是说,如果我们想用元数据帮助小蝌蚪找妈妈,需要先设计出合理的元模型。下图是我试着给它们设计出的元模型(对于企业来说,真正的元模型设计过程非常复杂,受多方面因素影响):

我们认为小蝌蚪的妈妈(Mother)由若干个属性(Property)组成,每个属性的名称用Name表示,每个属性的类型用Type表示。

现在元模型有了,下一步就是按照这个设计好的元模型采集小蝌蚪们需要的元数据信息,也就是我们常说的元数据采集。

2、元数据采集

设计好元模型之后,元数据管理工具能通过全自动的方式采集到企业所需要的元数据,在这个故事中,按照我设计好的元模型,元数据管理工具的元数据采集结果应该如下图所示:

小蝌蚪们拿着这份元数据再去针对性地检索关于妈妈的信息,就能一步到位,将目标直接锁定到青蛙,整个故事将因元数据的出现而成功改写。

说明:在真实的企业数据环境中,数据与元数据是已经存在于系统之中的,元数据管理就是根据企业现有的元数据设计出适合企业的元模型,然后将系统之中的元数据按照元模型集中汇总并关联到一起,达到企业对数据统一管理与应用的目的。

3、元数据分析

a、血缘分析

假设动物园园长慢羊羊正管理着整个动物园的数据信息,有一天园长发现自己这里有个数据不对,需要找出错误数据的提供者并追究责任,那么这个错误数据来自于哪个动物家庭呢?挨家挨户去敲门核对数据显然不够高效,元数据管理工具的血缘分析功能会自动帮助园长分析这个错误数据的上游路径,比如这个数据是由鲤鱼妈妈交给鳄鱼妈妈,鳄鱼妈妈再提交给园长的,那么此时园长只需要去敲鲤鱼和鳄鱼家的门就可以了。

b、影响分析

数据终于更正了,此时园长需要及时提醒大家这个数据的更正信息,只需要通知这个数据影响到的动物家庭就可以了,这让园长十分苦恼,整个动物园的数据传递这么复杂,怎么判断哪个家庭会受到这个数据的影响呢,元数据管理工具的影响分析功能会分析出这个数据的影响范并能用可视化的方式展现出来,园长只需要通知受影响的动物家庭就可以了。

c、数据地图展现

随着动物园规模的日益扩大,入住的动物种类日益增多,有一天园长想了解动物园的整体情况,有多少动物家庭,哪个家庭和哪个家庭比较要好,哪个家庭和哪个家庭又从来没有联系,此时元数据管理工具的数据地图可以帮助园长获取到他想要的信息,数据地图展现功能可以通过可视化的方式,让园长对整个动物园的情况了如指掌,帮助它更好地观察整个动物园的情况。

三、元数据的重要性

在大数据时代的背景下,数据即资产,元数据实现了信息的描述和分类的格式化,从而为机器处理创造了可能,它能帮助企业更好地对数据资产进行管理,理清数据之间的关系。元数据管理是企业提升数据质量的基础,也是企业数据治理中的关键环节。元数据管理不当,信息很容易被丢失,进而不能对业务进行有效支撑,企业内部业务人员要识别相关信息就会变得十分困难,最终用户也将失去对数据的信任。

写在最后:

公司正在研发针对企业级用户的数字化企业云平台,并且全面公开研发文档与技术细节,由我担任的群主的微信讨论群也会对架构设计过程进行公开,欢迎对此感兴趣的前辈和朋友入群,与我们共同讨论,共商“云”是。感兴趣或者想学习相关技术,可在网络中搜EAii了解。