数据质量控制
① 数据质量控制的基本要素有哪些
1. 建立数据的标准,明确数据的定义。通常,独立的应用系统会有一个比较模糊的、有时也会有比较清晰的数据标准和数据定义。为了保证系统的正常运行,这些系统的用户必须在数据的标准和数据的定义上达成一致。不过,这些标准和定义大多数时候与企业中其他系统中的数据标准和定义并不一致。因此,需要从整个企业的角度出发,建立统一的数据标准和数据定义,同时,整个企业必须就这个数据标准和数据定义达成共识。这一句话说起来容易做起来难。因为人通常本能地会拒绝改变,改变数据标准和定义并不是轻而易举的。为此,强烈建立在企业中除了设立一个高管级别的数据质量管理委员会外,还需要选定一个执行能力强的项目负责人,需要他推动相关人员接受新的数据标准和定义。
在具体建立新的数据标准和数据定义时,需要仔细权衡,哪些定义和标准是出于企业内部的原因(比如出于方便、习惯等)制订的,哪些定义和标准是因为要有效反映外部的真实世界而制订的。相对而言,前者更容易执行一些。
2. 建立一个可重复的数据收集、数据修改和数据维护流程。数据管理面临的两个主要挑战是企业本身的复杂性和身份信息不断变化。这两个客观原因的存在意味着企业的数据质量保证行动永远没有结束之日,因此,企业在制订数据质量的保证措施和数据质量指标时,必须保证这些措施和指标能够不断重复。
3. 在数据转化流程中设立多个性能监控点。数据的质量高低可以根据最终用户的需求来评价,也可以通过与同类数据源的比较来评价,还可以通过与前一阶段的数据质量进行比较来评价。但在制订数据质量的战略时,比较理想的办法还是根据最终用户的需求来进行。不过这里存在一个问题是,等到最终用户拿到数据时再针对数据的问题进行修正已经太迟了。一个有效的数据质量保证办法是在每当数据发生转换后就与前一时期进行比较,从而对数据质量进行评估。如果此前所采用的数据质量改进方法有助于提高最终用户的满意度,那么,这些中间指标的达标也预示着项目的最终成功。
数据质量管理5要素分析数据质量管理5要素分析
4. 对流程不断进行改善和优化。我们常常听到有人说,他们制订了很多办法来迅速而且大幅度提升数据的质量,但很少听说最后他们能真正得到满意的结果。其原因就在于数据的质量改进绝非一朝一夕的事情,而是一个持续的过程。正确的办法是通过一个不断改进的流程,持续不断地排除错误、对数据进行整合和标准化,最后达到流程的自动化,从而降低数据质量保证计划的总体开销。实际上,排除错误、数据整合和数据标准化从来就不是一件容易的事情。数据质量管理计划的负责人将配合公司高管组成的数据质量管理委员会来保证这个流程的顺利执行。要注意的是,作为该项目的负责人,不能墨守成规,仅仅因为自己以前一向采用某种方法,就要求别人也必须采用这一方法,特别是当发现这些方法成本高昂的时候,就应该考虑换一种方式了。
5. 把责任落实到人。通常,我们认为那些与数据的产生、维护相关的人员是负责任的,但是,很有可能,他们有很多其他的工作要做,因此作为数据质量的负责人光有善良的想法是难以提高数据的质量,很有可能一辈子也达不到目标。对于那些负责数据的产生、数据的合理化以及对数据进行清理和维护的人,应该给他们的活动制订明确的指标,这样他们才能真正理解人们到底希望他们达到什么目标。更重要的,他们还需要针对这些指标细化对他们自己的要求,当然,他们会因为达到或者超过这些指标而得到奖励。其中,一个执行力强的负责人的价值体现出来,他会针对具体情况适时调整数据质量的目标。
最后,再次强调考虑与数据管理和数据质量的改进项目有关的人的因素,他们的行为是非常重要的。从某种程度上说,要比具体选择什么软件要重要得多。上述5点有助于帮助组织规范数据质量管理中与人有关的流程。
② 数据库的质量控制
一、质量保证控制体系
在数据库建设过程中,各工作单位和计划项目综合组均制定了相应的质量保证体系和措施,从资料的来源、整理录入、检查汇总层层严格控制。质量保证控制体系内容包括:质量保证组织体系和质量保证制度体系,组织体系和制度体系又由承担单位和计划单位综合项目组两套体系组成。承担单位按照本单位全面质量管理制度和办法建立了以全面质量管理办公室、项目组和工作组为核心的质量保证组织体系以及完整的质量管理制度体系。以计划单位为核心的综合项目组的质量保证组织体系是由计划项目负责人、工作项目负责人和工作组构成。建立了三级质量检查监控体系:一是数据库工作人员的自检和互检;二是承担单位项目组组织的质量抽检;三是计划项目综合组组织的阶段性质量抽检和验收。在各级检查过程中,对发现的问题都做了详细的记录,并进行了认真修改,保证了录入资料的准确性。
二、质量保证措施
(一)属性数据的质量保证措施
属性数据就是要真实地反映原始资料,质量保证措施最主要的就是质量检查、核对,形成录入→检查→修改→补充→汇总五个步骤的工作流程。每一项内容录入完成以后,录入人员必须将录入数据与原始数据进行校对,自检率为100%,发现问题及时解决之后,再开始下一项数据的录入。工作每告一段落,要进行互检,互检率也是100%;同时承担单位项目组进行质量抽检,抽检率为30%~50%;计划项目综合组的阶段性质量抽检和验收,抽检率为20%~30%。数据库工作人员平时工作有记录,每次检查有记载,发现的问题修改情况也有记录,做到出问题有据可查,责任有人承担,确保数据录入的准确和可靠。同时,还制定了安全防范措施,即防计算机病毒破坏、防数据库数据误删除、防蓄意破坏。
(二)图形数据的质量保证措施
1.地理底图质量保证措施
本次使用的数字地理底图是国家测绘局1∶25万地理要素图,利用Map GIS的裁剪功能以松嫩平原界线为范围边界裁剪而成,图层要素有外图廓、经纬网、境界线、水系、公路、铁路、等高线、高程点等,并依据2005年11月中国地质调查局颁发的《1∶25万地理底图编辑要求》和水环所提供的图库进行了修编。原地理底图自带图库与水环所提供的图库有很大差别,都按图层及图元参数一一替换图案号及更改参数,保证了更换图库前后地理底图所示内容的一致性。
2.成果图件数字化质量保证措施
成果图件均由编图人员在喷绘的地理底图上绘制,然后采用300 dpi以上的分辨率进行扫描,提高了栅格文件的清晰度,减小了误差;制图人员利用Map GIS将图像配准到已矢量、修编好的地理底图上,所有经纬网交叉点都作为控制点采集对象,保证了图像配准的精度;矢量过程中窗口放大到40倍,鼠标跟踪输入;各类成果图件中松嫩平原边界在空间上严格重合,在面元建立拓扑时,不能作结点平差,分区线元与边界相交处分区线元用延长靠近母线、母线加点功能,在此基础上建立拓扑关系形成面元,保证了公共边界线元空间拓扑的一致性;对不同成果图件有相同要素的,要将其单独提取图层,根据图件要求予以增加,保证了不同图件中相同内容的一致性。通过上述工作方法,使图件数字化质量得到有效的控制。
矢量化后,喷出彩图检查图元信息,图元信息检查是保证图形数据质量的关键,这项检查工作以自检为主,检查都在两遍以上。图形属性数据通过MAPGIS属性管理系统输入完成,其属性字段按照《地下水资源调查评价数据库标准》要求填写。
3.提高数据库工作人员的质量意识
人是保证质量的主动因素,提高数据库工作人员的质量意识是保证数据库质量的重要措施,因此在数据库建设过程中,无论是承担单位,还是综合项目综合组都开展了提高质量意识的重要性教育,使每一个工作人员在思想上重视数据库质量,在行动上保证数据库质量。