⑴ 大数据挖掘需要学习哪些技术大数据的工作

首先
我由各种编程语言的背景——matlab,R,java,C/C++,python,网络编程等
我又一定的数学基础——高数,线代,概率论,统计学等
我又一定的算法基础——经典算法,神经网络,部分预测算法,群智能算法等
但这些目前来讲都不那么重要,但慢慢要用到

Step 1:大数据理论,方法和技术

  • 大数据理论——啥都不说,人家问你什么是大数据时,你能够讲到别人知道什么是大数据

  • 大数据方法——然后别人问你,那怎么实现呢?嗯,继续讲:说的是方法(就好像归并排序算法:分,并)。到目前外行人理解无障碍

  • 大数据技术——多嘴的人继续问:用的技术。

  • 这阶段只是基础,不涉及任何技术细节,慢慢看慢慢总结,积累对“大数据”这个词的理解。

    Step 2:大数据思维
    Bang~这是继Step 1量变发展而来的质变:学了那么久“大数据”,把你扔到制造业,你怎么办?
    我想,这就是“学泛”的作用吧,并不是学到什么具体东西,而是学到了对待事物的思维。

    ----------------------------------------------------------------------
    以下阶段我还没开始=_=,不好误导大家
    Step 3:大数据技术基础

    Step 4:大数据技术进阶

    Step 5:打实战

    Step 6:大融合

⑵ 数据挖掘的概念

数据挖掘( Data Mining,简称DM),简单地讲就是从大量数据中挖掘或抽取出知识,数据挖掘概念的定义描述有若干版本,以下给出一个被普遍采用的定义描述:
数据挖掘,又称为数据库中知识发现(Knowledge Discovery from Database,简称KDD),它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。 整个知识挖掘(KDD)过程是由若干挖掘步骤组成,而数据挖掘仅是其中的一个主要步骤。整个知识挖掘的主要步骤有:
数据清洗(data clearning ),其作用就是清除数据噪声和与挖掘主题明显无关的数据;
数据集成(data integration ),其作用就是将来自多数据源中的相关数据组合到一起;
数据转换(data transformation ),其作用就是将数据转换为易于进行数据才它掘的数据存储形式;
数据挖掘(data mining ),它是知识挖掘的一个基本步骤,其作用就是利用智能方法挖掘数据模式或规律知识;
模式评佑( pattern evaluation ),其作用就是根据一定评估标准interesting measures)从挖掘结果筛选出有意义的模式知识;
知识表示(knowledge presentation ),其作用就是利用可视化和知识表达技术,向用户展示所挖掘出的相关知识。

⑶ 数据挖掘的方法及实施

数据挖掘的方法及实施
作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,维数大。最后,数据挖掘是许多学科的交叉,运用了统计学,计算机,数学等学科的技术。以下是常见和应用最广泛的算法和模型:
传统统计方法:①抽样技术:我们面对的是大量的数据,对所有的数据进行分析是不可能的也是没有必要的,就要在理论的指导下进行合理的抽样。②多元统计分析:因子分析,聚类分析等。③统计预测方法,如回归分析,时间序列分析等。
可视化技术:用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。
决策树:利用一系列规则划分,建立树状图,可用于分类和预测。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。
神经网络:模拟人的神经元功能,经过输入层,隐藏层,输出层等,对数据进行调整,计算,最后得到结果,用于分类和回归。
遗传算法:基于自然进化理论,模拟基因联合、突变、选择等过程的一种优化技术。
关联规则挖掘算法:关联规则是描述数据之间存在关系的规则,形式为“A1∧A2∧…An→B1∧B2∧…Bn”。一般分为两个步骤:①求出大数据项集。②用大数据项集产生关联规则。
除了上述的常用方法外,还有粗集方法,模糊集合方法,Bayesian Belief Netords,最邻近算法(k-nearest neighbors method(KNN))等。
数据挖掘的实施流程
前面我们讨论了数据挖掘的定义,功能和方法,现在关键的问题是如何实施,其一般的数据挖掘流程如下:
问题理解和提出→数据准备→数据整理→建立模型→评价和解释
问题理解和提出:在开始数据挖掘之前最基础的就是理解数据和实际的业务问题,在这个基础之上提出问题,对目标有明确的定义。
数据准备:获取原始的数据,并从中抽取一定数量的子集,建立数据挖掘库,其中一个问题是如果企业原来的数据仓库满足数据挖掘的要求,就可以将数据仓库作为数据挖掘库。
数据整理:由于数据可能是不完全的、有噪声的、随机的,有复杂的数掘结构,就要对数据进行初步的整理,清洗不完全的数据,做初步的描述分析,选择与数据挖掘有关的变量,或者转变变量。
建立模型:根据数据挖掘的目标和数据的特征,选择合适的模型。
评价和解释:对数据挖掘的结果进行评价,选择最优的模型,作出评价,运用于实际问题,并且要和专业知识结合对结果进行解释。
以上的流程不是一次完成的,可能其中某些步骤或者全部要反复进行。

⑷ 什么是数据挖掘,或数据挖掘的过程是什么

CRISP-DM (cross-instry standard process for data mining), 即为“跨行业数据挖掘标准流程”。
CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述。该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段。
business understanding:即商业理解。 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么。 并将这些目的与数据挖掘的定义以及结果结合起来。
data understanding:数据的理解以及收集,对可用的数据进行评估。
data preparation:数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求。
modeling:即应用数据挖掘工具建立模型。
evaluation:对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的。
deployment:部署,即将其发现的结果以及过程组织成为可读文本形式(数据挖掘报告)。


从实践角度讲,数据挖掘的流程基本上和CRISP-DM标准过程一致,无非是几个步骤不断的反复。

我比较喜欢对数据挖掘定义的一种描述:数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。从中也可以看出,数据挖掘的基础是了解业务或找到熟悉业务的人,然后才是利用历史知识建立知识模式从而创造新知识。


过程的边界并不明显,但是又有基本的依赖顺序。比如可行性分析需要数据评估,模型优化结果不明显又得回到数据分析阶段,数据的分析和准备都得依赖ETL。

每个步骤缺一不可,前面的步骤是后面的基础,后面的步骤依赖于前面所有步骤,根据情况可能跳回前面任何一个步骤。