⑴ 检查数据的完整性及一致性,属于数据挖掘的哪个阶段

完整性和一致性检验,属于数据选择和清洗阶段的内容。
这部分内容源于统计理念。
完整性:比如数据并未包括全部群体,那么分析本身没有代表性,造成结论误差。

一致性:比如目标群体包括了一些非分析群体,那么数据可能会偏离结论,这就存在一致性错误。
所以,属于数据选择和清洗阶段的内容。

⑵ 什么是数据挖掘,或数据挖掘的过程是什么

CRISP-DM (cross-instry standard process for data mining), 即为“跨行业数据挖掘标准流程”。
CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述。该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段。
business understanding:即商业理解。 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么。 并将这些目的与数据挖掘的定义以及结果结合起来。
data understanding:数据的理解以及收集,对可用的数据进行评估。
data preparation:数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求。
modeling:即应用数据挖掘工具建立模型。
evaluation:对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的。
deployment:部署,即将其发现的结果以及过程组织成为可读文本形式(数据挖掘报告)。


从实践角度讲,数据挖掘的流程基本上和CRISP-DM标准过程一致,无非是几个步骤不断的反复。

我比较喜欢对数据挖掘定义的一种描述:数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。从中也可以看出,数据挖掘的基础是了解业务或找到熟悉业务的人,然后才是利用历史知识建立知识模式从而创造新知识。


过程的边界并不明显,但是又有基本的依赖顺序。比如可行性分析需要数据评估,模型优化结果不明显又得回到数据分析阶段,数据的分析和准备都得依赖ETL。

每个步骤缺一不可,前面的步骤是后面的基础,后面的步骤依赖于前面所有步骤,根据情况可能跳回前面任何一个步骤。

⑶ 数据挖掘项目的生命周期有哪些阶段

为成功地利用预测模型,您需要从开发阶段直至生产环境对模型进行全面管理。模型生命周期管理是由以下阶段组成的高效交替过程:
• 确定业务目标
• 访问和管理数据
• 开发模型
• 验证模型
• 部署模型
• 监控模型

⑷ 数据挖掘的发展阶段

第一阶段:电子邮件阶段
这个阶段可以认为是从70年代开始,平均的通讯量以每年几倍的速度增长。
第二阶段:信息发布阶段
从1995年起,以Web技术为代表的信息发布系统,爆炸式地成长起来,成为目前Internet的主要应用。中小企业如何把握好从“粗放型”到“精准型”营销时代的电子商务
第三阶段: EC(Electronic Commerce),即电子商务阶段
EC在美国也才刚刚开始,之所以把EC列为一个划时代的东西,是因为Internet的最终主要商业用途,就是电子商务。同时反过来也可以说,若干年后的商业信息,主要是通过Internet传递。Internet即将成为我们这个商业信息社会的神经系统。1997年底在加拿大温哥华举行的第五次亚太经合组织非正式首脑会议(APEC)上美国总统克林顿提出敦促各国共同促进电子商务发展的议案,其引起了全球首脑的关注,IBM、HP和Sun等国际著名的信息技术厂商已经宣布1998年为电子商务年。
第四阶段:全程电子商务阶段
随着SaaS(Software as a service)软件服务模式的出现,软件纷纷登陆互联网[5],延长了电子商务链条,形成了当下最新的“全程电子商务”概念模式。也因此形成了一门独立的学科——数据挖掘与客户关系管理硕士。