异构数据存储
① 什么是异构数据
异构数据是相关的多个数据的集合。
异构数据库系统是相关的多个数据库系统的集合,可以实现数据的共享和透明访问,几个数据库系统在加入异构数据库系统之前本身就已经存在。
拥有自己的数据阵管理系统、外构数据库的各个组成部分具有自身的自治性,实现数据共享的同时,每个数据库系统仍有自己的应用特性、完整性控制和安全性控制。
(1)异构数据存储扩展阅读
数据共享:
对于异构数据库系统,实现数据共享应当达到两点:一是实现数据库转换;二是实现数据的透明访问。由华中科技大学开发的,拥有自主版权的商品化数据库管理系统DM3系统,通过所提供的数据库转换工具和API接口实现了这两点。
DM3提供了数据库转换工具,可以将一种数据库系统中定义的模型转化为另一种数据库中的模型,然后根据需要再装入数据,这时用户就可以利用自己熟悉的数据库系统和熟悉的查询语言,实现数据共享的目标。
数据库转换工具首先进行类型转换,访问源数据库系统,将源数据库的数据定义模型转换为目标数据库的数据定义模型,然后进行数据重组,即将源数据库系统中的数据装入到目的数据库中。在转换的过程中,有时要想实现严格的等价转换是比较困难的。
首先要确定两种模型中所存在的各种语法和语义上的冲突,这些冲突可能包括:
命名冲突,即源模型中的标识符可能是目的模型中的保留字,这时就需要重新命名。
格式冲突,同一种数据类型可能有不同的表示方法和语义差异,这时需要定义两种模型之间的变换函数。
② 异构数据采集技术和网络爬虫采集有什么区别
数据存储的逻辑模型异构;数据分别在不同的业务逻辑中存储和维护,从而相同意义的数据存在表现的异构;如:独立的销售系统和独立的采购系统中存在部门的编码不一致等。异构数据采集技术的原理在于通过获取软件系统的底层数据交换和网络流量包,进行包流量分析和使用仿真技术采集到应用数据,并且输出结构化数据,真正实现了各种软件数据都能采集,各种类型数据都兼容,各种行业软件都适用,各种时段数据都能抓取,无需软件厂商配合,异构数据直接采集。
爬虫工作内容
互联网作为人类历史最大的知识仓库,是没有充分结构化的。目前互联网仅仅是一些文本等多媒体数据的聚合,内容虽然非常有价值,但是程序是无法使用那些没有结构化的数据。
在2006年左右,有专家提出的web3.0,语义互联网,知识共享。虽然现在开放API,SOA概念越来越普及,真正语义上的互联网的时代似乎还非常遥远。因此爬虫依然是最重要的手段,一端不断解析,聚合互联网上的数据,另外一端向各种各样的的应用输送数据。
现有爬虫开发技术存在问题
从招聘市场岗位需求可以看出,近年来对爬虫工程师需求越来越强烈。
个人判断原因有两个:
信息聚合是互联网公司的基本需求。
数据时代到来,对数据更强烈的需求。