数据的预处理
❶ 数据预处理主要针对哪些数据
数据预处理一方面是为了提高数据的质量,另一方面也是为了适应所做数据分析的软件或者方法。一般来说,数据预处理步骤有数据清洗、数据集成、数据变换、数据规约,每个大步骤又有一些小的细分点。当然了,这四个大步骤在做数据预处理时未必都要执行。
一、数据清洗
数据清洗,顾名思义,“黑”的变成“白”的,“脏”的数据变成“干净”的,脏数据表现在形式上和内容上的脏。
形式上的脏,如:缺失值、带有特殊符号的;
内容上的脏,如:异常值。
缺失值包括缺失值的识别和缺失值的处理。
在R里缺失值的识别使用函数is.na()判别,函数complete.cases()识别样本数据是否完整。
缺失值处理常用的方法有:删除、替换和插补。
删除法 :删除法根据删除的不同角度又可以分为删除观测样本和变量,删除观测样本(行删除法),在R里na.omit()函数可以删除所含缺失值的行。这就相当于减少样本量来换取信息的完整度,但当变量有较大缺失并且对研究目标影响不大时,可考虑删除变量R里使用语句mydata[,-p]来完成。mydata表示所删数据集的名字,p是该删除变量的列数,-表示删除。
替换法 :替换法顾名思义对缺失值进行替换,根据变量的不同又有不同的替换规则,缺失值的所在变量是数值型用该变量下其他数的均值来替换缺失值;变量为非数值变量时则用该变量下其他观测值的中位数或众数替换。
插补法 :插补法分为回归插补和多重插补。回归插补指的是将插补的变量当作因变量y,其他变量看错自变量,利用回归模型进行拟合,在R里使用lm()回归函数对缺失值进行插补;多重插补是指从一个包含缺失值的数据集中生成一组完整的数据,多次进行,产生缺失值的一个随机样本,在R里mice()包可以进行多重插补。
异常值跟缺失值一样包括异常值的识别和异常值的处理。
异常值的识别通常用单变量散点图或箱形图来处理,在R里dotchart()是绘制单变量散点图的函数,boxplot()函数绘制箱现图;在图形中,把远离正常范围的点当作异常值。
异常值的的处理有删除含有异常值的观测(直接删除,当样本少时直接删除会造成样本量不足,改变变量的分布)、当作缺失值(利用现有的信息,对其当缺失值填补)、平均值修正(用前后两个观测值的均值修正该异常值)、不处理。在进行异常值处理时要先复习异常值出现的可能原因,再判断异常值是否应该舍弃。
❷ 数据的预处理包括哪些内容
数据预处理(datapreprocessing)是指在主要的处理以前对数据进行的一些处理。如对大部版分地球物理面积性观权测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。另外,对于一些剖面测量数据,如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等。
数据预处理的方法:
1、数据清理
数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。
2、数据集成
数据集成例程将多个数据源中的数据结合起来并 统一存储,建立数据仓库的过程实际上就是数据集成。
3、数据变换
通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。
4、数据归约
数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。