① 什么叫元数据

元数据最本质、最抽象的定义为:data about data (关于数据的数据)。它是一种广泛存在的现象,在许多领域有其具体的定义和应用。

在数据仓库领域中,元数据被定义为:描述数据及其环境的数据。一般来说,它有两方面的用途。首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。

在软件构造领域,元数据被定义为:在程序中不是被加工的对象,而是通过其值的改变来改变程序的行为的数据。它在运行过程中起着以解释方式控制程序行为的作用。在程序的不同位置配置不同值的元数据,就可以得到与原来等价的程序行为。

在图书馆与信息界,元数据被定义为:提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估、选择等功能。

此外,元数据在地理界,生命科学界等顶域也有其相应的定义和应用。

② 土地利用现状数据元数据管理系统的设计与实现

徐才江1 陈和平1 陈志荣2

(1.宁波市国土资源局江北分局信息中心,宁波,3150202.浙江大学浙江省资源与环境信息系统重点实验室,杭州,310028)

摘要:元数据对促进土地基础数据的管理、使用和共享均有重要的作用。在对土地利用现状数据元数据的描述和元数据构成要素及其关系分析的基础上,设计并分析了土地利用现状元数据管理系统的框架结构和系统设计流程,结合实例详细介绍了用XML组织土地利用现状元数据内容和用XSLT转换XML文档的具体实现方法,最后在开发的土地利用现状数据库系统(LandEx)中进行集成,实现了有效管理土地利用现状数据的目的。提出并设计实现的元数据管理系统在土地基础数据管理实践中具有一定的代表性和通用性。

关键词:元数据;土地利用;信息系统

土地利用现状、土地利用规划、地籍、地价等土地基础数据是进行土地管理和相关工作的基础数据之一,它在编制国民经济计划、土地利用总体规划、基本农田保护区划及日常土地证发放等方面具有重要的意义。但是,由于其数据来源复杂,数据格式多样,数据的空间、时间和属性信息变化快等特点,如何更好地管理和使用这些数据已成为各级土地管理部门面临的突出问题。负责数据生产的部门需要有效的数据管理、维护和更新方法;而数据使用部门需要一种更快、更加全面和有效的方法从土地基础数据库中发现、访问、获取和使用现势性强、精度高、易访问的数据。在这种情况下,土地基础数据的内容、质量、状况等元数据信息变得尤为重要,成为土地基础数据有效管理和应用的重要手段。因此,如何在土地基础数据库中建立有效的元数据管理系统成了土地基础数据库建设与更新的核心内容之一。

目前,地理空间数据元数据的研究主要偏向于元数据标准的制订和发展,而各种元数据标准是为了描述如何实现数据维护、数据共享、查询和传输等功能,至于如何在计算机上组织实现和管理这些元数据信息则涉及的较少。在这种背景下,本文以浙江省土地利用现状数据元数据管理系统的实现为例,提出了用XML进行描述、组织和存储土地利用现状空间数据的元数据,论述了元数据管理系统的设计与实现过程,最后在系统中实现了土地利用现状元数据的有效管理。

1 土地利用现状元数据概述

1.1 元数据在土地利用现状应用领域的内容

元数据被概括地定义为“关于数据的数据”。在地理空间数据中,元数据是指地理空间相关数据集和信息资源的描述信息,它通过对地理空间数据的内容、质量、条件、位置和其他特征进行描述与说明,帮助和促进人们有效地定位、评价、比较、获取和使用地理相关数据。在土地管理领域,土地利用现状元数据主要是关于土地利用空间数据和相关信息资源的描述信息,主要包括:标志信息、数据集名称、数据集引用信息,数据集质量信息,数据集性质,数据集格式,空间参照系统信息,内容信息等。

1.2 元数据构成要素及其关系

根据《中国可持续发展信息共享元数据内容标准》中关于元数据的论述,可将元数据分为三层:元数据子集、元数据实体和元数据元素。元数据元素是元数据的最基本单位,在元数据实体中是唯一的;元数据实体是相同特性的元数据元素的集合,由一个或多个相同特性的元素构成;元数据子集是相互关联的元数据实体或元素的集合。在同一个子集中实体可以有两类,即简单实体和复合实体,简单实体只包含元素,复合实体既包含简单实体又包含元素,同时简单实体与复合实体及构成这两种实体的元素之间具有继承关系。因此,浙江省土地利用现状元数据子集、元数据实体和元数据元素之间的相互构成关系可以用图1进行说明,其中地理范围为复合实体,包括了地理描述和地理坐标范围两个简单实体。

图1 元数据构成要素关系图

2 基于 XML 的土地利用现状元数据系统设计与实现

2.1 系统的总体结构框架

设计的浙江省土地利用现状元数据管理系统通过9个功能模块组成,各模块按图2进行详细划分。元数据创建模块提供了元数据的初始创建,其中关于空间数据的内容信息通过自主开发的数据库引擎(ReSDE)从数据库中自动读取,保证了元数据内容与空间数据的一致性。图3为元数据操作界面,根据土地利用数据的特点进行创建元数据。转换模块是为了满足用户多种格式的输出和显示需求而进行的对XML文档的转换,采用XSLT、JavaScript技术实现。显示模块也叫元数据浏览模块,是在元数据XML文档转换基础上的显示样式。图4是系统中根据定义好的XSLT样式文件经过XSLT处理器做相应转换后的元数据信息显示效果,左边目录树为数据库中土地利用的空间数据集,只要选择其中的数据集,右边就会显示其对应的元数据信息。图1中元数据的关系可以通过点击相应的数据节点进行逐步展开浏览,元数据子集对应的是第一层节点,下一层为元数据实体,如果是复合实体还可以继续展开浏览,直到元数据元素。由于土地利用现状空间数据会随着土地的变更等操作而经常发生变化,因此描述其空间数据的元数据也就会做相应的改动,编辑模块提供了这种实时修改现有元数据的功能。元数据存储模块负责对土地利用元数据的XML文档进行存储。为了满足元数据管理系统的安全性需要,系统提供了用户登陆和身份认证的功能。查询模块是面向所有用户的,不涉及用户对元数据内容的修改等,所以不需要身份认证,可以满足用户对所需数据的快速查询、访问等功能。

图2 元数据管理模块划分

图3 创建与编辑元数据

图4 浏览元数据

2.2 系统设计流程

本文设计实现的土地利用现状元数据管理系统是在Oracle 9i数据库平台上采用VC+ +6.0开发的,用到了XML、XSLT、JavaScript的相应技术。元数据系统设计的过程如图5所示。土地利用现状元数据组织成XML文档时,结构大致按照图1元数据要素的构成关系进行组织元数据集,最后把所有的元数据子集组织成一个XML文档,XML文档中的内容根据具体要管理的对象来决定,这里按照《浙江省土地利用现状更新调查技术报告》中元数据样式参考规范中的内容结构进行组织,其中标签设计参照FGDC元数据标准和ISO/TC211元数据体系来确定。完成设计后的XML文档可以有多种存储方式,可存在数据库或文件系统中,本系统采用Oracle 9 i作为后台数据库,将元数据信息存在表空间中,并创建与空间数据集关联的一组表来对元数据进行管理。功能模块设计主要根据图2所示的每种功能做具体编码实现。XSLT转换文档设计主要是定义相应的样式文件来让XSLT处理器对XML文档做相应转换工作。用户界面设计以每个数据子集按一个属性页的方式进行设计,以方便用户查找和操作。

2.3 实例分析

2.3.1 元数据的 XML 表达实例

可扩展标记语言XML是W3 C (万维网联盟)认可的文档标记标准。定义了利用简单的、人类可读的标签对数据进行标记所采用的一般语法,提供了计算机文档的一种标准格式。XML一个很大的优点是自定义性,DTD和XML schema从功能上来说就是一种元数据,还可以利用XML Schema对元数据进行扩展。由于元数据描述对象的不同层次之间具有图1所示的隶属和继承关系,因此,非常适合用XML来组织和表达这种关系。

把元数据组织成XML文档时除了合理的结构安排还要注意标签的使用,以增加XML文档的可读性。具体XML部分代码组织形式如下:

<?xml version=′1.0′encoding=′gb2312′?>

<?xml-stylesheet type=″text/xsl″href=″workxsl.xsl″?> <!—指定相应的转换样式表- - >

<metadata>

<spatialrefInfo>

<name>《中华人民共和国行政区划代码》(GB/T2260-1999)</name>

<refname>1980 西安平面坐标系</refname>

<coortype>投影坐标系</coortype>

<projname>高斯-克吕格投影(3 度带)</projname>

</ spatialrefInfo >

</metadata>

2.3.2 XML 文档的转换实例

由于XML的内容与表示是分开的,并不描述其内容如何被显示,为了满足用户多种格式的输出和显示需要,所以对XML文档要进行转换工作。利用XSLT技术,在对相互信息定义和结构了解的基础上,建立相应的样式文件来让XSLT处理器做相应的转换工作,从而可以面向用户进行直观地显示。具体对应上面XML文档的XSLT转换代码如下:

<?xml version=″1.0″encoding=′gb2312′?>

<xsl:stylesheet xmlns:xsl=http://www.w3.org/TR/WD - xsl TYPE=″text/javas-cript″>

<xsl:template match=″/″>

<!—说明:调用程序中 JavaScript 定义的函数,以响应鼠标事件 - - >

<div CLASS=″ph2″onmouseover=″doHilite ()″onmouseout=″doHilite ()″

onclick=″hideShowGroup (this)″>空间参照系统信息

<info> <xsl:value-of select=′metadata/ spatialrefInfo /name′/ > </info> <br/ >

<info> <xsl:value-of select=′metadata/ spatialrefInfo / refname′/ > </info> <br/ >

<info> <xsl:value-of select=′metadata/ spatialrefInfo /coortype ′/ > </info> <br/ >

<info> <xsl:value-of select=′metadata/ spatialrefInfo /projname′ / > </info> <br/ >

</xsl:template> </xsl:stylesheet>

转换后的XML文档是HTML,由于HTML是静态的,为了方便浏览和满足友好的交互性要求,用JavaScript语言做相应编码来达到目的,具体函数调用的方式见代码说明。

3 结语

根据本文所述设计并实现的浙江省土地利用现状数据元数据管理系统在实际应用中取得了很好的效果,满足了数据管理和元数据操作的基本要求,并具有操作简单、用户界面良好等特点。由于土地利用现状数据元数据具有地理空间数据元数据的一般特点,所以本文提出的元数据管理系统的设计和实现方法在实践中具有一定的代表性和通用性,它不仅适用于土地利用现状数据的元数据管理系统中,而且对开发土地基础数据库其他元数据系统也具有一定的实用性。在实际工作中,除了对构建元数据管理系统重视外,还应加强对土地基础数据元数据标准的研究工作,从而建立更加科学合理的描述土地基础数据的元数据标准。

参考文献

中国21世纪议程管理中心.中国地理信息元数据标准研究[M].北京:科学出版社,1999:70~85

浙江省国土资源厅.浙江省土地利用现状更新调查技术报告[M].北京:中国环境科学出版社,2003

Elliotte Rusty Harold W.Scott Means.XML 技术手册[M].北京:中国电力出版社,2001

Khun Yee Fung.XSLT 精要从 XML 到 HTML [M].北京:清华大学出版社,2002

张书亮,龚敏霞,闾国年.基于 XML 的地理空间元数据表达研究[J].遥感学报,2003,7 (1):66~72

承继成,赵永平.地理信息及其元数据标准化[J].遥感学报,1998,2 (2):149~154

李军,周成虎.地球空间数据元数据标准初探[J].地理科学进展,1998.17 (4):55~63

国家基础地理信息中心.国家基础地理信息系统(NFGIS)元数据标准草案(初稿[EB/01]).2003-12-05

③ 元数据库

元数据是“关于数据的数据”,存在于电子信息环境中,用于描述资源的属性,呈现其关系,支持资源发现、管理与有效利用(徐筱红,2006),是对所采集到的数据的说明。一般来说,它有两方面的用途:首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据;其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在塔里木河流域生态环境动态监测及辅助决策支持系统综合数据库系统中,元数据机制主要支持以下几类系统管理功能:①描述哪些数据在综合数据库中;②定义要进入数据库中的数据和从数据库中产生的数据;③记录并检测系统数据一致性的要求和执行情况;④衡量数据质量。

(一)元数据分级与特征

1.元数据分级

基本元数据:提供地理数据源基本文档所需要的最少的元数据元素集。

完全元数据:提供完整的地理数据源(单独的数据集、数据集系列、各种地理要素)文档所需要的必选的和可选的元数据元素集。它完整地定义全部元数据,以便标识、评价、摘录、使用和管理地理信息。

2.元数据特征

(1)名称:赋给元数据实体或元素的标记。

(2)标识码:计算机中使用的定义每个元数据实体和元素的唯一代码。代码结构为:XXXXXX

前2位为元数据子集,2位数字码;中间2位为元数据实体/独立元素,2位数字码;后2位为元数据实体包含的元素,2位数字码。

(3)定义:对元数据实体和元素的说明。

(4)性质:说明元数据实体或元素是否总是出现,或有时出现的描述符。描述符分别为:M-必选;C-一定条件下必选;O-可选。

(5)条件:说明何种条件下元数据子集、实体或元素是必选的。如果对所说明的条件成立,那么该子集、实体或元素就是必选的。

(6)最大出现次数:指定元数据实体或元素在实际使用时,可能重复出现的最大次数。只出现一次的表示为“1”,重复出现的表示为“N”。

(7)数据类型:表示元数据元素的一组不同的值,例如,“文本”、“整型”、“短语”、“坐标串”、“实型”和“日期”。

(8)值域:指定每个元数据元素的取值范围。“任意长文本”表示所述内容不受限制,实型数和基于代码的整型数等只能使用一个限定的(闭合的)值域内的值。

(二)元数据库主要内容

塔里木河流域生态环境动态监测系统的元数据包括数字影像图、数字栅格图、数字高程模型、数字线划图等。大部分数据都有相应的国家或行业元数据标准规范,有国家或行业标准的按照标准规范采集;没有规范的,按照元数据的分级特征进行定义。主要包括有关数据源、数据分层、成果归属、空间参照系、数据质量(包含数据精度和数据评价)、数据更新、图幅接边等方面的信息(周骋等,2006)。其主要内容描述如下:

(1)标识信息:是唯一标识数据集的元数据信息。包括数据集名称、发布时间、版本、语种、摘要、现状、空间范围(地理范围、时间范围)、表示方式、空间分辨率、信息类别。

(2)数据质量信息:是数据集质量的总体评价。包括数据集内容完整性说明、数据集在概念、值域、格式和拓扑关系等方面的一致性程度、位置精度(空间位置绝对精度和相对精度)、时间精度(表示时间的精确程度、现势性、有效性)、属性精度(数据集属性分类正确性、属性值的精度和正确性)、数据质量保证措施。

(3)数据字典信息:包含数据集应用、数据源及生产数据集时所用工艺方法等信息。

(4)空间参照系信息:数据集使用的空间参照系统的说明。包括基于地理标识的空间参照系统、基于坐标的空间参照系统。

(5)内容信息:描述数据集的主要内容。包括主要要素类型名称及相应的属性名称、影像数据集内容概述(波长、波段、灰阶等级、合成处理方式)、栅格数据集内容概述(格网尺寸、格网尺寸单位、格网行列数、格网起始点坐标)。

(6)元数据参考信息:包括元数据发布或更新的时间,以及建立元数据单位的联系信息。

以上6类由两个公共数据类型联系,公共数据类型包括:

(1)覆盖范围信息:数据集的空间范围(经纬度坐标、地理标识符)、时间范围(起始时间、终止时间)、垂向范围(最小垂向坐标值、最大垂向坐标值、计量单位)。

(2)负责单位联系信息:与数据集有关的单位标识(负责单位名称、联系人、职责)和联系信息(电话、传真、通信地址、邮政编码、电子信箱地址、网址)。

(三)元数据入库

元数据信息是一个纯文本文件,在生产时采集了多项数据,它是与图形数据、属性数据紧密联系在一起的,按照每幅图一个文本文件存储。为了实现数据库系统中元数据与数据体的集成化管理,以及元数据与数据体的一体化相互检索查询,需将元数据信息空间化。采取的技术方法就是将元数据文件与图幅结合表联系起来,将每一幅图形的区域作为一个目标对象,所采集的多项元数据信息作为其属性项,构成一个以图幅结合表为基础的矢量格式元数据集。同图形数据坐标系统一样,元数据采用地理坐标系统,整个流域则以Coverage格式整体存储,数据处理完成后全部导入到Oracle9i数据库中。