标称型数据
A. 数据挖掘对聚类的数据要求是什么
1. 可扩展性(Scalability)
大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率
2. 处理不同数据类型的能力
数字型;二元类型,分类型/标称型,序数型,比例标度型等等
3. 发现任意形状的能力
基于距离的聚类算法往往发现的是球形的聚类,其实现实的聚类是任意形状的
4. 用于决定输入参数的领域知识最小化
对于高维数据,参数很难决定,聚类的质量也很难控制
5. 处理噪声数据的能力
对空缺值、孤立点、数据噪声不敏感
6. 对于输入数据的顺序不敏感
同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果
7. 高维度
高维度的数据往往比较稀松,而且高度倾斜
8. 基于约束的聚类
找到既满足约束条件,又具有良好聚类特性的数据分组
9. 可解释性和可用性
聚类要和特定的语义解释和应用相联系
相异度矩阵:存储n个对象两两之间的近似性,也叫单模矩阵,行和列代表相同的实体
B. 聚类分析聚类算法中包含哪些数据类型
聚类分析聚类算法中包含哪些数据类型
许多基于内存的聚类算法采用以下两种数版据结构:
(1)数据矩阵(Data Matrix,或称对象一变盘结构):用p个变量来表示n个对象,例如使用年龄、身高、性别、体重等属性变量来表示对象人,也叫二模矩阵,权行与列代表不同实体:
(2)相异度矩阵(Dissimilarity Matrix,又称为对象一对象结构):存储所有成对的n个对象两两之间的近似性(邻近度),也叫单模矩阵,行和列代表相同的实体。其中d(ij)是对象i和对象j之间的测量差或相异度。d(i,f)是一个非负的数值,d(ij)越大,两个对象越不同;d (i,j)越接近于0,则两者之间越相似(相近)。
许多聚类算法都是以相异度矩阵为基础的,如果数据是用数据矩阵形式表示,则往往要将其先转化为相异度矩阵。
相异度d(i,j)的具体计算会因所使用的数据类型不同而不同,常用的数据类型包括:区间标度变量,二元变量,标称型、序数型和比例标度型变量,混合类型的变量。