数据特征分析
Ⅰ 如何说明数据分布特征
对数据做好质量分析后,接下来就可以通过绘制图表、计算某些特征量等方法对数据进行特征分析。
数据特征分析主要包括这些内容:分布分析、对比分析、统计量分析、周期性分析、贡献度分析、相关性分析等。
分布分析,揭示数据的分布特征和分布类型。
对于定量数据,可以做出频率分布表、绘制频率分布直方图或者茎叶图;对于定性分类数据,可以使用饼图或者条形图直观地显示分布情况。
对比分析,把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小、水平的高低、速度的快慢以及各种关系是否协调。
对比分析主要有绝对数比较和相对数比较两种形式。
统计量分析,用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。
贡献度分析,又称帕累托分析,其原理是帕累托法则,即20/80定律,同样的投入放在不同的地方会产生不同的效益。
通过贡献度分析,关注那些能够带来高价值的投入。
Ⅱ 遥感数据基本统计特征分析
多种遥感数据处理及专题信息提取都是以多元统计分析为基础展开的,其基本原理是将遥感数字图像中像元 DN 值视为具有统计分布特征的随机变量,并从统计分析的角度进行各种图像预处理、变换、增强及图像分类处理。所以,遥感数据的基本统计特征分析在数字图像处理中占有重要的地位,对遥感地质专题信息提取至关重要。
遥感数据的基本统计特征包括单波段遥感数据的均值、众数、标准差等基本统计量,以及多波段遥感数据的协方差、相关系数,此外也包括图形方式的直方图、散点图等统计特征。
1. 单波段数据基本统计量
单波段数据基本统计量主要包括: 均值、中值、众数、数值域、标准差 ( 图 4-2) 。均值、中值、众数这三个统计量物理意义相近,代表了图像中地物的平均辐射 ( 反射、发射、散射) 强度或代表图像中分布最广的地物的辐射特性。标准差在数学意义上反映了图像中像元 DN 值的总体离散程度,其物理意义是反映了图像中各类地物之间的辐射特性差异。数值域、反差与标准差的物理意义相近,反映了图像中地物辐射特性间的最大差异 ( 图像对比度) 。
图 4-2 单波段数据基本统计量
均值和标准差是遥感数字图像统计分析中最重要的统计量。单波段图像的均值和标准差以及多波段图像的均值向量和标准差向量在较大程度上反映了图像像元辐射能量值的统计分布特征及可解信息量的多少,并直接影响遥感图像的显示效果和目视可解性。
2. 多波段数据基本统计量
多波段图像数据可被视为多维 ( 波谱维) 空间中的多维随机变量,每个像元样本在不同波段的亮度值组成一个向量。不同波谱变量 ( 波段) 之间的相关关系可用协方差( 协方差矩阵) 、相关系数 ( 相关系数矩阵) 等特征参数进行度量。其中,相关系数的数值大小能够直接反映两个变量之间的相关程度。
( 1) 协方差及协方差矩阵: 两个波段 ( 变量) X1和 X2之间的协方差数学表达式为
遥感地质学
式中: S212,S221表示两个波段 ( 变量) X1和 X2之间的协方差; N 为图像像元数目; , 分别为波段 X1和 X2的均值。
当遥感数据共有 n 个波段时,两两波段之间的协方差即构成了 n 阶的协方差矩阵。
( 2) 相关系数及相关系数矩阵: 两个波段 ( 变量) X1和 X2之间的相关系数数学表达式为
遥感地质学
式中: r12,r21表示两个波段 ( 变量) X1和 X2之间相关系数; S212,S221表示两个波段 ( 变量) X1和 X2之间的协方差; S1,S2分别为波段 X1和 X2的标准差。
当遥感数据共有 n 个波段时,两两波段之间的相关系数即构成了 n 阶的相关系数矩阵( 图 4-3) 。
图 4-3 遥感数据协方差矩阵、相关系数矩阵、特征向量矩阵
3. 直方图、散点图
( 1) 直方图: 是以图形的形式表达单波段图像数据统计特征的参数,通过直方图,可直观定性分析图像数据的众数、标准差等统计特征参数,并能够进行初步的信息提取工作。例如,通过对直方图中各 “峰”、“谷”的位置及其之间的关系进行分析可进行波段图像中地物的大致分类,通常情况下,某些地质异常信息相对应的 DN 值多位于直方图的“长尾”处。
( 2) 散点图: 是以图形的方式表达多个波段数据之间相关关系的参数,散点图表示了两个波段之间的相关程度,散点图越趋近于一条直线分布则表示两个波段之间的相关系数越大,反之散点越分散分布则说明两个波段之间的相关系数越小 ( 图 4-4) 。
图 4-4 散点图
Ⅲ 海洋数据时空特征分析
如上所述的海洋数据的总体特征,从GIS的角度来看,还有着其独特的时空特征。相对于陆地数据来讲,海洋数据普遍存在着非常典型的真三维和时刻变动的特点。
2.1.4.1 海洋数据的空间类型复杂
海洋数据的空间类型相比陆地数据的复杂性主要体现在:海洋是个真三维的环境。这就使处理海洋空间问题必然要涉及3个空间坐标的问题,而不再像陆地上那样,在很多情况下只需要处理2个平面坐标。值得重视的是,第3个空间坐标的出现,不是简单意义上的增加1个坐标。即使是只考虑空间数据的存储,按照这种2:3的线性比例来看,可能新出现需要考虑和处理的空间情况也会多增加一半,而实际情况则是在更多方面,如三维的可视化等,会增加更多的麻烦。
如图2.1所示,通过对国际流行的商业化GIS和数据库软件所采用的数据模型的对比研究,得出常用GIS系统的数据组织与管理模型。数据首先被分解成空间数据和属性数据两大类,属性数据与空间数据分开存储管理,其中属性数据用SQLServer等关系数据管理系统管理,空间数据用文件或关系数据库方式管理。空间数据的存储格式包括矢量、栅格、图像和多维表格等。此外,所谓的对象数据,则经常采用空间数据和属性数据并置的方式进行存储与管理。
对于二维数据(包括含高程的二维数据),这种组织方式已经在无数个实例验证了它的成功,因此对它的效率和可靠度毋庸置疑。
但是目前需要处理的海洋数据,是一种真三维的数据,那么空间数据如果用关系表组织的话,就多出很大的数据量,因为原先是二维空间结构的,现在需要在二维的基础上再叠加一维,如果数据关系表设计不周到,必然会造成数据的极大冗余。数据的文件式存储暂时也许会是个更好的选择,但是需要重新制定新的文件格式,以提高三维空间数据存放的效率。
图2.1 GIS系统中常用的数据组织和管理模型
2.1.4.2 海洋数据的时间类型复杂
与增加了第三维空间数据相比,海洋数据新增加的时间类型则要更加突出。这是因为,在常用的陆地GIS系统中,一般都不考虑或极少考虑到数据的时间变动问题,而在海洋数据中,这种情况恰好相反,时间不再作为一种属性数据的形式出现,而是成为完全并列于空间数据的重要类型之一,在多数时候,它的重要性不亚于任何一维的空间数据。
如图2.2所示,既然有了新的时间类型数据,必须给它赋予一个合理的重要位置,与空间数据的位置同等重要,或者至少也要比一般的属性数据更加重要。
同时,海洋数据的时间类型具有多种样式,类比于空间数据的存储格式,时间数据也有所谓的“矢量”、“栅格”、“图表”等,用更加标准的语言描述,应该是“时刻”、“时段”、“过程”等。时刻指精确到一定精度的时间节点,例如对于一般海洋常规调查的海流测量,精确到分钟的时间精度已经可以作为一个时刻出现。时段指一定时间区间内的所有结果,即具有一定的起始时刻和结束时刻,在这个时间区间中的数据都属于该时段。实际上,一个时段的平均结果或代表性效果,在更大的时间尺度上,可以作为时刻出现,例如以每月的水温测量平均值作为当月的代表,在全年的水温序列中,它仅仅是一个时间点而已。过程定义成时刻或者时段的序列。
用时间和空间做个类比:单个时刻的数据相当于空间“矢量”数据中的点;单个时段的数据相当于空间“栅格”数据中的一个像素;时刻(或时段)的不规则序列,相当于空间“矢量”数据中的线;如果时刻(或时段)的序列是规则间隔的,并且时刻序列间的时间空隙是可以忽略的,那么该过程就相当于空间数据中的“栅格”数据。仅有时间概念的话,无法组成面,因此这里没有“矢量”数据的面,所谓的“栅格”数据也只是指栅格线而已。
这样,就可以重新勾勒一下海洋数据的常用组织方法和管理模型的概念框架了(图2.2)。其中,空间数据已经被时空数据全面代替,需要处理的同时包含时间和空间的数据类型。关于时空拓扑的研究,目前并没有取得较大的进展,并且考虑到这种研究如果和具体的专业(如物理海洋学)结合,将专业理论、技术和方法融入到拓扑关系研究中,会更加合适。
图2.2 海洋数据的时空组织和管理模型
2.1.4.3 海洋数据的属性数据
海洋数据的属性数据,可以分为海洋要素数据和海洋现象数据两大类,前者是海洋调查的真实测量数据,后者则是理论抽象的数据。海洋要素经常是以场的形式出现的,海洋场表现为海洋要素的连续场分布,海洋场是海洋和海洋科学的基本特点。
而关于欧拉方式和拉格朗日方式是物理海洋科学研究中的两种基本表达方式。在海洋地理信息系统中,这两种方式对于解决海洋数据,更重要的是海洋现象(如海流)的问题,具有非常重要的启发意义。其中,欧拉方式更多的是体现了一种欧拉场的表达方式,在空间场的范畴下建立海洋要素场,从而进一步揭示更多的海洋现象。例如,海洋水团的研究,则主要是从海洋要素场入手来分析水团的生消变化。在海洋地理信息系统中,这样的海洋现象应该更容易用欧拉方式来表达。而拉格朗日方式则有所不同,在拉格朗日表达方式中,场的概念被弱化了,但是海洋现象的空间位置变动成为一种更易于表现。例如,海流可以用欧拉方式表达为流场,但是持续的海流更应该用拉格朗日方式来表达,拉格朗日方式的海流在更多的时候更能体现海流研究中的很多精华,起到欧拉方式所难以达到的表达效果。
如前所述,所谓海洋现象,是指在对海洋场的分析和研究基础上,物理要素的特殊空间和时间分布规律的总称。一种海洋现象,外在表现上必然对应着某个或某些物理要素的特殊分布。所以,海洋动力学现象是其中的重点。某些海洋现象,其本身或许不发生明显的动力学变化,但是动力学的变化却必然影响和制约着其随后的发展变化。所以说,海洋动力学现象是海洋要素场的重点。
显然,海洋要素场和海洋现象概念既有联系,又有区别,经常需要在对象与场之间进行概念切换。它们的关系主要体现在:海洋场是海洋科学研究的基本对象,海洋现象相对于海洋场来说,实际上是海洋场的特征表达和概念提炼。从数学的空间变换角度看,对应着场域到局部域的变换。从对象视图到场视图的转换或逆过程,可以用特征函数(对象到场)或反函数(场到对象)建立。但是有时海洋现象也有其特殊性,不能仅仅用这种变换就能够完全解决问题。例如,基于拉格朗日描述方法的海洋现象就是另外一种思路。所以,海洋场的表达目前基本上只局限于欧拉方式下,对于基于拉格朗日的海洋现象的表达需要采用新的表达方法,如采用时空“矢量”方式来处理。
基于拉格朗日描述的海洋动力学,它在监测和预报海洋环境污染方面的特殊地位,因此一直受到广泛重视。例如,海域内污染物质(如油膜)的漂移可以认为是一种拉格朗日形式的运动。简单地说,海水的流线场才真正代表了污染物质的运动特征,海水的运动轨迹场才真正代表了污染物质可能造成的危害。认识到这一点,就可以发现它在应用层次上所具有的特殊意义。
如上所述,海洋数据有时也称为海洋时空数据,它具有三个基本特征,即时间、空间和属性特征。这也是地理信息系统处理地理空间数据的一般方法。
2.1.4.4 时空数据的复杂性
相比于一般地理数据,海洋数据的时间特性和空间三维特性使得海洋地理信息时刻面对时空数据的复杂性问题,尤其是海洋数据的组织、存储和管理,如何对时间和空间重新组合,从而在原有的二维空间图层的概念上增加新的数据类型是一个重要的基本问题。
海洋时空数据除了在数量上具有大小的概念之外,在时空尺度问题上也遵循海洋科学固有的规律,因此时空数据具有自身的尺度问题和多层次问题。
2.1.4.5 海洋现象的表达
海洋要素数据的表达可以通过增加时间—空间组合的方式进行表达,但海洋现象本身还涉及海洋科学研究对海洋现象的定量化刻画问题,对此,涉及海洋地理信息系统的完整化,需要对海洋现象的基本涵义做出定量的解释,进而构建它的时空表达方式。