元数据挖掘
1. 元数据标准的意义
说到元数据的意义,可以从其应用目的来谈的。虽然做数据仓库言必称元数专据,必称技术、业属务元数据,但其到底用于何处?离开了目标去谈元数据,就发现元数据包含太多的东西,因为他是描述数据的数据嘛。
还是那客户关系系统来比喻,这个系统维护客户信息当然是有目的的,是要用这些信息进行一些自动的流程处理、去挖掘一些客户潜在的价值、做好客户服务。当然没有必要去维护客户的生命特征信息,诸如指纹、犯罪史等,这些信息跟客户关系管理的目标关系不大。元数据也是如此,你可以将所以数据的结构、大小、什么时间创建、什么时间消亡、被那些人使用等等,这些信息可以延伸得太广,如果不管目标,而试图去建一个非常完美的元数据管理体系,这是一种绝对的自上而下做法,必败无疑。
2. 用数据挖掘的方法如何帮助决策者进行决策
随着高校招生规模逐年扩大以及教育方式更加灵活多样,几乎每所高校都面临着学生人数的急剧增加与教学资源日趋紧张的矛盾,同时高校的一些机构也在不断地改革变化,这些都给高校的管理带来了前所未有的发展和挑战。在这样的形势下,高校应如何以最小的代价获得最大的发展成为一个亟待解决的新课题。
具体来说,现在要求高校领导层从整体的、宏观的角度认清形势,解决问题,优化教育资源配置,提高教育资源利用率。为此,建立一个有效的高校管理决策支持系统(Decision Supporting System,简称DSS)则显得十分必要。该系统的各项功能除了满足日常简单的查询、统计和维护、全局统筹规划管理高校各种信息、协调各部门工作顺利开展,还能够为高校决策者提供有关教育形势的瞬时变化、发展趋势以及通过高科技手段来开发历史数据,提取隐含在其中的事先未知的、潜在的、深层次的、有价值的信息,以利于管理和决策的开展和进行。
一般在建立DSS时,会利用传统的数据库DB(Database)技术,但传统的DB技术目前无法为数据的合成、分类和综合提供强大的功能支持。此外,为实施有效的分析,信息应以与决策密切相关的主题为中心组织起来,这些都是DB满足不了的。而数据仓库技术的出现给决策支持系统的发展注入了新的活力,它把决策者所需的信息从原始的操作数据中分离出来,把分散的、难以访问的原始数据操作数据转化为集中统一、随时可访问的信息,即数据仓库对信息实现合理、全面而高效的管理。因此,研究数据仓库和它的相关技术并应用于高校决策支持系统中是极其有效的途径。
本文所采用的解决方案,就是一个以数据仓库(Data Warehouse,简称DW)技术为基础,以数据挖掘(Data Mining,简称DM)工具为手段的高校管理决策支持系统。该系统中,DW用于存储和组织高校的基础数据,而DM则可以利用该基础数据,通过一系列技术挖掘出有价值的知识信息,验证和预测高校的各项资源,辅助决策,以便在快速变化的竞争中把握高校的发展方向。
一、数据仓库和数据挖掘技术分析
(一)数据仓库技术分析
1.数据仓库的概念
DW作为决策支持系统的基础,不同的人对数据仓库有不同的定义。公认的数据仓库之父W.H.Immon将其定义为:“数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、持久的数据集合。”
数据仓库中的数据大体分为四级:远期基本数据、近期基本数据、轻度综合数据和高度综合数据。还有一部分重要数据是元数据,即关于数据的数据,数据仓库中用来与终端用户的多维模型与前端工具间建立映射的元数据,称为决策支持系统的元数据。
一个完整的数据仓库系统应当具备建立、管理和使用等功能。W.H.1mmon认为,数据仓库系统可以分为三个组成部分:
(1)数据源:提供源数据;
(2)后端加工处理:包括来自数据源数据的接受、析取、汇总、变换、打包和储存等;
(3)前端服务:面向用户的数据需求,完成数据提取和计算分析等功能。
2.开发数据仓库的流程
开发数据仓库的流程包括以下几步:
(1)建立开发数据仓库工程的目标及制定工程计划;
(2)建立技术环境,选择实现数据仓库的软硬件资源;
(3)根据决策需求确定主题,进行数据建模,选择数据源,对数据仓库的数据进行逻辑结构设计;
(4)设计数据仓库中的数据库,基于用户的需求,着重于某个主题,开发数据仓库中数据的物理存储结构,即设计多维数据结构的事实表和维表;
(5)数据转换程序实现从源系统中抽取数据、清理数据、一致性格式化数据、装载数据等过程的设计和编码;
(6)定义元数据,即表示、定义数据的意义及系统各组成部件之间的关系。元数据包括关键字、属性、数据描述、物理数据结构、源数据结构、映射及转换规则、综合算法、代码、缺省值、安全要求、变化及数据时限等;
(7)开发用户决策的数据分析工具,建立结构化的决策支持查询,实现和使用数据仓库的数据分析工具,包括优化查询工具、统计分析工具、客户机/gR务器工具、联机分析处理工具及数据开采工具等,通过分析工具实现决策支持需求;
(8)管理数据仓库环境,包括质量检测、管理决策支持工具及应用程序.并定期进行数据更新,使数据仓库正常运行。
3.高校管理中的数据仓库建立
从上可知,DW不是业务数据的简单堆积,而是从大量的事务型数据库中抽取数据,并将其清理、转化为新的存储格式,即为决策目标把数据聚合在一种特殊的格式中。随着此过程的发展和完善,这种支持决策的、特殊的数据存储即被称为DW。对高校管理来说,DSS建立数据仓库的数据可能来自如人事处、学生处、教务处、财务处、设备处、后勤管理等职能部门和二级学院、系及不同地域的分校等,所有这些数据从结构上看,是相对独立的,是不利于高校决策者进行全面分析和查询的。根据高校DSS的需求,就必须要求数据仓库从较高层次上把分散的、难以访问的数据从不同信息系统中分离/:U来,经过抽取、净化、转换、迁移为统一、随时可用的信息,通过深层次加工把信息转换成大小不一、各式各样的数据集市(DataMart)以利于各个职能管理部门和院系作专题分析和辅助领导层决策。同时,它应由系统定期自动完成分散数据源的采集、入库和刷新丁作,还要充分考虑今后的扩展性与外部数据的接口。总之,DW把高校分散的、难以访问的日常营运数据转化为集中统一、随时可用的信息。一般来说,完整的DW具备建立、管理和使用全部成分。由此也可知,建立数据仓库是一个长期复杂的过程。
数据仓库主要应用于对全局把握和事件的复杂分析等领域。它的真正价值在于帮助人们制定能够改进过程的决策,而不仅仅是工作流程的自动化。因此,有了数据仓库,高校领导层决策时就可以依据事实,而不再是只依赖直觉。
(二)数据挖掘技术分析
1.高校管理需要数据挖掘
根据目前高校管理信息系统的特点,首先需要在较高层次—亡将不同信息系统中的数据综合、归类,并进行分析利用的抽象,即建立数据仓库,在数据仓库的基础上进行联机分析处理和数据挖掘,为科学决策提供依据支持。
DM就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,抽取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。从更广义角度来讲,DM就是在一些事实或观察数据的集合中寻求模式的决策支持过程。因此,它除了处理传统数据库中的数值型的结构化数据外,还可以对文本、图形、图像、WWW信息资源等半结构、非结构数据进行挖掘。
DM意味着在一些事实或观察数据的集合中寻找模式的决策支持过程,DM的对象不仅是数据库,也可以是文件系统、数据集合或DW。基于DW的DM技术,其任务是发现DW中尚未被发现的知识。对于那些决策者明确了解的信息,可以用查询等其它工具直接获取,而另外一些隐藏在大量数据中的关系、趋势等信息就需要DM技术。DM技术可从DW中找出大量真正有价值的信息和知识,可以更好地对高校的发展历程和未来趋势做出定量的分析和预测。为各高校的管理决策者提供更科学的决策基础,从而有效地提高教学质量,有针对性地加强教学管理。
2.数据挖掘的任务
DM的任务是发现知识,主要包括以下几类知识的发现:广义型的知识,反映同类事务共性的知识;特征型知识,反映事物各方面特征的知识;差异性知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测性知识,根据历史和当前的数据推测未来的数据;偏离型知识,揭示事物偏离常规现象。
3.数据挖掘的流程。
DM就是利用数据挖掘技术,从存放在数据库、数据仓库及其其它信息库的大量数据中挖掘有价值的知识的过程。可以将数据挖掘分为四个步骤:
(1)业务对象:首先应熟悉应用领域的数据、背景知识,清晰地定义出业务问题,明确所要完成的数据挖掘的任务,完成数据定义工作。
(2)数据准备:包括数据抽取和预处理工作。主要对数据质量进行分析,完成消除数据噪声,清除不一致数据,进行多个数据库的集成、组合工作。然后从数据库中选择挖掘的对象,将数据转换成数据挖掘系统要求的统一格式。
(3)数据挖掘:是知识发现的核心步骤。包括选择合适的算法和技术、执行挖掘算法、搜寻提取数据模式等。
(4)结果分析:依据要解决的问题,对挖掘出的模式进行确认或者解释,将发现的知识以用户能够理解的方式提供给用户。
4.数据挖掘的方法
DM的结果体现在知识的发现上,而知识的发现是一个极其复杂的过程。面对高校管理的数据挖掘这个领域,如何从众多的挖掘技术中精心选择出有效的技术和方法,是研究和开发高校管理数据挖掘系统的首要问题。数据挖掘可采用有下面的方法:
(1)决策树方法:主要用于数据分类。它利用信息论中的信息增益寻找数据库中具有最大信息量的字段,建立决策树的一个节点,再根据字段的不同取值建立树的分支;在每个分支子集中重复建立树的下层节点和分支的过程,即可建立决策树。接着进行剪枝处理,然后把决策树转化为规则,利用这些规则对新事物进行分析。
(2)遗传算法:主要用于分类和关联规则的挖掘。遗传算法是基于达尔文进化论中基因重组、突变、自然选择和适者生存等概念,试图通过组合或“繁殖”现存的最好的解法来产生更好的解法。
(3)人工神经网络:用于分类、聚类、特征挖掘、预测和模式识别。人工神经网络从结构上模仿生物神经网络,通过简化、归纳、提炼总结出来的一类并行处理网络。以模拟和学习规则为基础,建立三类多种神经网络模型:前馈式网络、反馈式网络、自组织网络。
(4)粗糙集理论:用于数据简化、数据意义评估、对象相似性或差异性分析、因果关系及泛化式挖掘等。主要思想是:把对象的属性分为条件属性和决策属性,按各属性值相同分等价类。条件属性上的等价类E与决策属性上的等价类Y分三种情况,分别为:下近似,Y包含E;上近似,Y和E交集非空;无关,Y和E的交集为空。对下近似建立确定性规则,对上近似建立不确定性关系,对无关情况则不存在规则。
(5)关联规则方法:用于对大型关系数据库发现有价值的关联模式,也可对半结构化数据(如文档数据)进行关联规则挖掘。它通过统计方法对数据中的if--then规则进行寻找、归纳和提取。
就目前高校的情况而言,现有的管理信息系统大都具有分类特性,因此高校管理DSS的数据挖掘方法主要采用能实现分类模式分析的方法,以分类模式分析为主线,关联模式分析为辅线结合其他分析方法进行。
二,决策支持系统技术分析
1.基本概念
管理的核心是“决策”。随着时代的发展,高校比以往任何时候都面临着更为复杂的生存环境,更难以形成并维护其竞争优势,竞争的压力对高校制定决策的质量、速度都提出了更高的要求。
决策支持系统(DeClslonSuppoaingSystem,简称DSS)是针对半结构化的决策问题,支持决策活动的具有智能作用的人机系统。该系统能够为决策者提供决策所需的数据、信息和背景材料,帮助明确决策目标和进行问题识别,建立或修改决策模型,提供各种备选方案,并且对各种方案进行评价和优选,通过人机交互功能进行分析、比较和判断,为正确决策提供必要的支持。决策支持系统作为一种新型的信息技术,能够为高校提供各种决策信息以及许多问题的解决方案,减轻了管理者从事低层次信息处理和分析的负担,使得他们专注于最需要决策智慧和经验的工作,提高了决策的质量和效率。其从功能逻辑结构上看,是由数据库系统、模型库系统、知识库系统及人机会话系统等部分组成的。
2.DSS的分析方法
DSS应满足决策支持系统的要求和达到DSS的性能指标,由于DSS的特殊性,对DSS的系统分析通常采用一种称之为ROMC的方法。ROMC是一种基于决策过程基本活动的方法,是决策者进行表达(R)、操作(o)、存储辅助(M)和控制(C)的方法,其基本思路是建立起DSS的要求与性能之间的关系,并力求减少它们之间的差异。
ROMC分析方法正是在用户目标的基础之上的,它主要从以下几点进行分析:
(1)表达(Representation):提供表达式以帮助决策者将问题概念化,以便于处理和交流;
(2)操作(Operatmn):提供这些表达式进行分析和运算的某些操作方法;
(3)存储辅助(Memoryaid):表达与加工的存储支持;
(4)控制机制(Controlmechanism):提供处理和使用整个系统的控制机制。
图1中,首先识别决策支持过程的基本活动,其次分析每一个活动的组成部分:R(表达)、o(操作)、M(存储)、c(控制),然后集成这些部分建立一个专用DSS。在交付使用时,设计者将继续沿着这四个方面的追踪系统和用户,不断地扩展和修改基本部件,直到用户满意为止。
三、基于数据挖掘的决策支持系统的建立
基于以上讨论,一种基于数据挖掘的决策支持系统基本结构框架如图2所示。它由数据库、数据仓库、数据仓库管理模块、数据挖掘工具、知识库、知识发现模块、人机交互模块组成。系统的主要输入是源于数据库的数据以及存储在知识库中的知识和经验;人机交互模块通过自然语言处理和语义查询在用户和系统之间提供相互联系的集成界面;数据仓库管理模块完成数据仓库的创建以及数据仓库中数据的综合、提取等各种操作,负责管理整个系统的运转;数据挖掘工具用于完成实际决策问题所需的各种查询检索工具、多维数据的OLAP分析工具和数据开采DM了具等,以实现决策支持系统的各种要求;知识发现模块控制并管理知识发现过程,它将数据的输入和知识库中的信息用于驱动数据选择过程、知识发现引擎过程和发现的评价过程。
在图2中箭头方向为控制流。决策支持同数据库管理是密切联系的,用户发出决策请求命令后,通过数据挖掘工具触发数据仓库管理模块从数据仓库中获取与任务相关的数据。
建立改决策支持系统的过程可描述如下:(1)分析户决策需求,描述和表示决策的问题;(2)确定数据来源,建立数据仓库;(3)针对所要发现的任务的所属类别,如归类、回归分析、聚类、发现关联规则等,设计或选择有效的数据挖掘算法并加以实现;(4)数据挖掘,逐层综合。调用数据挖掘功能,从平凡的历史数据中提出综合数据.独立存储为库文件,作为更高一层数据挖掘对象;(5)测试以评价所发现的知识,对知识进行一致性、效用性处理;(6)应用开发,根据最终用户的要求,建立适用于决策支持的数据仓库的集成界面和应用程序,使用户能在决策支持中运用所发现的知识。
以上过程不是简单的线性流程,而是一个学习、发现和修改的过程,步骤之间包含了循环和反复,这样可以对发现的知识不断求精、深化,并使其易于理解。
四.结束语
数据仓库、数据挖掘和决策支持系统都是方兴未艾的前沿科学,数据挖掘技术为决策支持系统地研制与开发提供了一种有效、可行的体系化解决方案。一个完整的决策支持系统应集成数据仓库、数据挖掘技术。随着数据仓库和数据挖掘技术在各个领域的广泛采用,决策支持系统的研究与开发工作将被推向一个更高的层次。
在教育领域,随着管理信息系统的数据信息的不断增长,把DM技术应用到管理信息系统中,以建立高校管理决策支持系统,必将为高校各级领导部门的决策提供切实可行的提高教学质量、优化教学资源的依据,为高校在激烈的竞争中掌握主动,在未来的发展中提供更广阔的空间,发挥重要的作用,为高校的跨越式发展起到一个科学导向作用。
3. 数据挖掘与数据分析的区别是什么
数据分析与数据挖掘的目的不一样,数据分析是有明确的分析群体,就是对群体进行各个维度的拆、分、组合,来找到问题的所在,而数据发挖掘的目标群体是不确定的,需要我们更多是是从数据的内在联系上去分析,从而结合业务、用户、数据进行更多的洞察解读。
数据分析与数据挖掘的思考方式不同,一般来讲,数据分析是根据客观的数据进行不断的验证和假设,而数据挖掘是没有假设的,但你也要根据模型的输出给出你评判的标准。
我们经常做分析的时候,数据分析需要的思维性更强一些,更多是运用结构化、MECE的思考方式,类似程序中的假设。
分析框架(假设)+客观问题(数据分析)=结论(主观判断)
而数据挖掘大多数是大而全,多而精,数据越多模型越可能精确,变量越多,数据之间的关系越明确
数据分析更多依赖于业务知识,数据挖掘更多侧重于技术的实现,对于业务的要求稍微有所降低,数据挖掘往往需要更大数据量,而数据量越大,对于技术的要求也就越高需要比较强的编程能力,数学能力和机器学习的能力。如果从结果上来看,数据分析更多侧重的是结果的呈现,需要结合业务知识来进行解读。而数据挖掘的结果是一个模型,通过这个模型来分析整个数据的规律,一次来实现对于未来的预测,比如判断用户的特点,用户适合什么样的营销活动。显然,数据挖掘比数据分析要更深一个层次。数据分析是将数据转化为信息的工具,而数据挖掘是将信息转化为认知的工具。
其实不论数据分析还是数据挖掘,能抓住老鼠的就是好猫,真的没必要纠结他们之前的区别,难道你给领导汇报时,第一部分是数据分析得出,第二部分是数据挖掘得出?他们只关注你分析的逻辑、呈现的方式。