元数据版本
Ⅰ 求大神给分析一下Datastage 7.5,8.5,9.1三个版本之间有什么区别多谢啦!
相同点:
底层用的都是datastage parallel engine
不同点:
DS7.X及之前的版本,功能较单一,只是一个单纯的ETL工具,元数据是存储在一套univers data(文件数据库)里的,此外,ds用户都是直接使用OS用户;
DS8.X开始,引入了websphere,将应用用户和底层OS用户隔离开来,增加了安全性,并且采用关系型数据库存储元数据(univers数据库依然存在),产品架构发生了较大变化,datastage变成Information Server suite中的一个部件,但底层ds并行引擎没有改变,只是更新了一些驱动,加了几个新的stage组件,在原有ds的基础功能上,对元数据的管理做了增强,包括批量开发job、数据质量分析、数据血缘分析、业务元数据管理等内容。
DS9.1是2012年底最新发布的版本,相对于DS8.x,做了一些调整,在一些细节功能上进行了优化,但是底层架构与DS8.X没有太大差别,在原来的基础上增加了blueprint蓝图设计和发布功能,可以对数据仓库的数据架构进行设计规划。
DS7.X版本在2012年上半年IBM就已经停止产品更新和技术支持服务,多数使用DS的企业都选择了升级到8版本,目前大部分使用的版本是8.1和8.5或8.7,近几年Information Server版本升级较快,往往客户采购了8.1(或8.5、8.7),在项目还没做完的时候,8.5(或8.7、9.1)就出来了。
DS大版本号的变更表示产品进行了一些较大的更新,比如7.X到8.X,新功能需要有一个融合稳定期,是否要做第一个吃螃蟹的人,就看你是否强烈需要使用这些新增功能了。
个人觉得在8.x版本中,8.5、8.7是相对较稳定、对新数据产品支持较完善的(特殊情况下需要安装相关的fix pack),目前IBM主推9.1版,不过目前使用这个版本的客户不多,我也没有实际使用过9.1版,了解有限。
建议去google搜索一下各个版本的release note,new features等等,对比一下就大概了解了。
Ⅱ 什么是出版物的元数据它包括哪些内容
出版物元数据是指使用中国标准书号进行标识的出版物的描述性信息,主要包括ISBN、产品形回式、题名、题名的汉语拼答音、丛书、著作者、版本、语种、出版标记、出版者、出版国家、出版日期、原出版物的ISBN号、内容提要、定价、备注等出版物的基础描述性信息。 出版物元数据主要是为区分使用中国标准书号进行标识的不同出版物,通过ISBN和ISBN元数据的对接,可以确定ISBN所对应的出版物的基本信息。目前,各组区ISBN中心正在根据《国际标准书号》的规定,建立出版物ISBN元数据库。
Ⅲ 元数据库
元数据是“关于数据的数据”,存在于电子信息环境中,用于描述资源的属性,呈现其关系,支持资源发现、管理与有效利用(徐筱红,2006),是对所采集到的数据的说明。一般来说,它有两方面的用途:首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据;其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在塔里木河流域生态环境动态监测及辅助决策支持系统综合数据库系统中,元数据机制主要支持以下几类系统管理功能:①描述哪些数据在综合数据库中;②定义要进入数据库中的数据和从数据库中产生的数据;③记录并检测系统数据一致性的要求和执行情况;④衡量数据质量。
(一)元数据分级与特征
1.元数据分级
基本元数据:提供地理数据源基本文档所需要的最少的元数据元素集。
完全元数据:提供完整的地理数据源(单独的数据集、数据集系列、各种地理要素)文档所需要的必选的和可选的元数据元素集。它完整地定义全部元数据,以便标识、评价、摘录、使用和管理地理信息。
2.元数据特征
(1)名称:赋给元数据实体或元素的标记。
(2)标识码:计算机中使用的定义每个元数据实体和元素的唯一代码。代码结构为:XXXXXX
前2位为元数据子集,2位数字码;中间2位为元数据实体/独立元素,2位数字码;后2位为元数据实体包含的元素,2位数字码。
(3)定义:对元数据实体和元素的说明。
(4)性质:说明元数据实体或元素是否总是出现,或有时出现的描述符。描述符分别为:M-必选;C-一定条件下必选;O-可选。
(5)条件:说明何种条件下元数据子集、实体或元素是必选的。如果对所说明的条件成立,那么该子集、实体或元素就是必选的。
(6)最大出现次数:指定元数据实体或元素在实际使用时,可能重复出现的最大次数。只出现一次的表示为“1”,重复出现的表示为“N”。
(7)数据类型:表示元数据元素的一组不同的值,例如,“文本”、“整型”、“短语”、“坐标串”、“实型”和“日期”。
(8)值域:指定每个元数据元素的取值范围。“任意长文本”表示所述内容不受限制,实型数和基于代码的整型数等只能使用一个限定的(闭合的)值域内的值。
(二)元数据库主要内容
塔里木河流域生态环境动态监测系统的元数据包括数字影像图、数字栅格图、数字高程模型、数字线划图等。大部分数据都有相应的国家或行业元数据标准规范,有国家或行业标准的按照标准规范采集;没有规范的,按照元数据的分级特征进行定义。主要包括有关数据源、数据分层、成果归属、空间参照系、数据质量(包含数据精度和数据评价)、数据更新、图幅接边等方面的信息(周骋等,2006)。其主要内容描述如下:
(1)标识信息:是唯一标识数据集的元数据信息。包括数据集名称、发布时间、版本、语种、摘要、现状、空间范围(地理范围、时间范围)、表示方式、空间分辨率、信息类别。
(2)数据质量信息:是数据集质量的总体评价。包括数据集内容完整性说明、数据集在概念、值域、格式和拓扑关系等方面的一致性程度、位置精度(空间位置绝对精度和相对精度)、时间精度(表示时间的精确程度、现势性、有效性)、属性精度(数据集属性分类正确性、属性值的精度和正确性)、数据质量保证措施。
(3)数据字典信息:包含数据集应用、数据源及生产数据集时所用工艺方法等信息。
(4)空间参照系信息:数据集使用的空间参照系统的说明。包括基于地理标识的空间参照系统、基于坐标的空间参照系统。
(5)内容信息:描述数据集的主要内容。包括主要要素类型名称及相应的属性名称、影像数据集内容概述(波长、波段、灰阶等级、合成处理方式)、栅格数据集内容概述(格网尺寸、格网尺寸单位、格网行列数、格网起始点坐标)。
(6)元数据参考信息:包括元数据发布或更新的时间,以及建立元数据单位的联系信息。
以上6类由两个公共数据类型联系,公共数据类型包括:
(1)覆盖范围信息:数据集的空间范围(经纬度坐标、地理标识符)、时间范围(起始时间、终止时间)、垂向范围(最小垂向坐标值、最大垂向坐标值、计量单位)。
(2)负责单位联系信息:与数据集有关的单位标识(负责单位名称、联系人、职责)和联系信息(电话、传真、通信地址、邮政编码、电子信箱地址、网址)。
(三)元数据入库
元数据信息是一个纯文本文件,在生产时采集了多项数据,它是与图形数据、属性数据紧密联系在一起的,按照每幅图一个文本文件存储。为了实现数据库系统中元数据与数据体的集成化管理,以及元数据与数据体的一体化相互检索查询,需将元数据信息空间化。采取的技术方法就是将元数据文件与图幅结合表联系起来,将每一幅图形的区域作为一个目标对象,所采集的多项元数据信息作为其属性项,构成一个以图幅结合表为基础的矢量格式元数据集。同图形数据坐标系统一样,元数据采用地理坐标系统,整个流域则以Coverage格式整体存储,数据处理完成后全部导入到Oracle9i数据库中。
Ⅳ 什么是元数据
元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data)。
元数据作用是:
1、描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
2、元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
元数据的应用举例:
1、数据结构:数据集的名称、关系、字段、约束等;
2、数据部署:数据集的物理位置;
3、数据流:数据集之间的流程依赖关系(非参照依赖),包括数据集到另一个数据集的规则;
4、质量度量:数据集上可以计算的度量;
5、度量逻辑关系:数据集度量之间的逻辑运算关系;
6、ETL过程:过程运行的顺序,并行、串行;
7、数据集快照:一个时间点上,数据在所有数据集上的分布情况。
(4)元数据版本扩展阅读:
元数据的优点:
1、自描述:元数据自动提供 COM 中 IDL 的功能,允许将一个文件同时用于定义和实现。运行库模块和程序集甚至不需要向操作系统注册。结果,运行库使用的说明始终反映编译文件中的实际代码,从而提高应用程序的可靠性。
2、设计:元数据提供所有必需的有关已编译代码的信息,以供用户从用不同语言编写的 PE 文件中继承类。用户可以创建用任何托管语言(任何面向公共语言运行库的语言)编写的任何类的实例,而不用担心显式封送处理或使用自定义的互用代码。