数据不确定性
⑴ 不确定性数据的产生因素
一、原始数据不准确
这是产生不确定性数据最直接的因素。首先,物理仪器所采集的数据的准确度受仪器的精度制约;其次,在网络传输过程(特别是无线网络传输)中,数据的准确性受到带宽、传输延时、能量等因素影响;最后,在传感器网络应用与RFID应用等中,周围环境也会影响原始数据的准确度。
二、使用粗粒度数据集合
很明显,从粗粒度数据集合转换到细粒度数据集合的过程会引入不确定性。例如,假设某人口分布数据库以乡为基础单位记录全国的人口数量,而某应用却要求查询以村为基础单位的人口数量,查询结果就存在不确定性。
三、满足特殊应用目的
出于隐私保护等特殊目的,某些应用无法获取原始的精确数据,而仅能够得到变换之后的不精确数据。
四、处理缺失值
缺失值产生的原因很多,装备故障、无法获取信息、与其他字段不一致、历史原因等都可能产生缺失值。一种典型的处理方法是插值,插值之后的数据可看作服从特定概率分布。另外,也可以删除所有含缺失值的记录,但这个操作也从侧面变动了原始数据的分布特征。
五、数据集成
不同数据源的数据信息可能存在不一致,在数据集成过程中就会引入不确定性。例如,Web中含很多信息,但是由于页面更新等因素,许多页面的内容并不一致。
六、其它
对某些应用而言,还可能同时存在多种不确定性。例如,基于位置的服务(Location-Based Service, LBS)是移动计算领域的核心问题,在军事、通信、交通、服务业等中有着广泛的应用。LBS应用获取各移动对象的位置,为用户提供定制服务,该过程存在若干不确定性。首先,受技术手段(例如GPS技术)限制,移动对象的位置信息存在一定误差。其次,移动对象可能暂时不在服务区,导致LBS应用采集的数据存在缺失值情况。最后,某些查询要求保护用户的隐私信息,必须采用“位置隐私”等方式处理查询。