云计算海量数据挖掘
云计算和大数据能做什么,很多人都分不清楚,那么云计算与大数据的关系是什么呢?今天就给大家简单的分析一下。
云计算:云计算是通过互联网提供全球用户计算力、存储服务,为互联网信息处理提供硬件基础。云计算,简单说就是把你自己电脑里的或者公司服务器上的硬盘、CPU都放到网上,统一动态调用,现在比较有名的云计算服务商是亚马逊的AWS。
大数据:大数据运用日趋成熟的云计算技术从浩瀚的互联网信息海洋中获得有价值的信息进行信息归纳、检索、整合,为互联网信息处理提供软件基础。大数据,简单说,就是把所有的数据放到一起分析,找到关联,实现预测。这里的所有数据对应的是之前的抽样调研取得的部分数据。
云计算与大数据的关系:
云计算是基础,没有云计算,无法实现大数据存储与计算。大数据是应用,没有大数据,云计算就缺少了目标与价值。两者都需要人工智能的参与,人工智能是互联网信息系统有序化后的一种商业应用。这才是:云计算与大数据真正的出口!
而商业智能中的智能从何而来?方法之一就是通过大数据这个工具来对大量数据进行处理,从而得出一些关联性的结论,从这些关联性中来获得答案,因此,大数据是商业智能的一种工具。 而大数据要分析大量的数据,这对于系统的计算能力和处理能力要求是非常高的,传统的方式是需要一个超级计算机来进行处理,但这样就导致了计算能力空的时候闲着、忙的时候又不够的问题, 而云计算的弹性扩展和水平扩展的模式很适合计算能力按需调用,因此,云计算为大数据提供了计算能力和资源等物质基础。
⑵ 云计算的海量数据挖掘工作是怎样实现的
云计算属于新兴技术领域,群英云计算转一篇关于问题的学术报告吧。对您应该有所帮助。
1引言
目前,人们正处于一个“无处不网、无时不网,人人上网、时时在线”的时代,图灵奖获得者吉姆·格雷(Jim Gray)认为,网络环境下每18个月产生的数据量等于过去几千年的数据量之和。目前互联网的数据具有海量增长、用户广泛、动态变化等特征。2010年,QQ同时在线的用户超过1亿人,淘宝一年交易次数比上年增长150%,视频服务Animoto在3天内通过Amazon将其服务能力迅速扩展至75万用户。
数据挖掘能够发现隐含在大规模数据中的知识,提高信息服务的质量。如伊朗事件中twitter快速传播假消息的识别、Amazon和淘宝网中商品关联关系分析,以及优酷网中视频个性化推荐等。海量数据挖掘在国家安全、国民经济和现代服务业中具有广泛应用,有助于提升网络环境下信息服务的质量,实现以人为本的信息服务。
从数据挖掘技术的发展历史看,随着互联网的蓬勃发展,数据的规模越来越大,从KB级发展到TB甚至PB级海量数据;数据挖掘的对象也变得越来越复杂,从数据库、到多媒体数据和复杂社会网络;数据挖掘的需求也从分类、聚类和关联到复杂的演化和预测分析;挖掘过程中的交互方式从单机的人机交互发展到现在社会网络群体的交互。这种发展给数据挖掘带来了巨大的挑战:对于网络环境下产生的TB级和PB级的复杂数据,需要有高效的海量数据挖掘算法;网络环境下大众的广泛参与,需要在数据挖掘算法中能够融入群体智慧;同时社会网络的迅速发展使得信息服务的个性化成为必然,要求能够满足即时组合的个性化挖掘服务。
云计算是一种基于互联网的、大众参与的计算模式,其计算资源(包括计算能力、存储能力、交互能力等)是动态、可伸缩、被虚拟化的,并以服务的方式提供 [1] 。具体表现在:云计算的动态和可伸缩的计算能力为高效海量数据挖掘带来可能性;云计算环境下大众参与的群体智能为研究集群体智慧的新的数据挖掘方法研究提供了环境;云计算的服务化特征使面向大众的数据挖掘成为可能。同时,云计算发展也离不开数据挖掘的支持,以搜索为例,基于云计算的搜索包括网页存储、搜索处理和前端交互三大部分。数据挖掘在这几部分中都有广泛应用,例如网页存储中网页去重、搜索处理中网页排序和前端交互中的查询建议,其中每部分都需要数据挖掘技术的支持。
因此,云计算为海量和复杂数据对象的数据挖掘提供了基础设施,为网络环境下面向大众的数据挖掘服务带来了机遇,同时也为数据挖掘研究提出了新的挑战性课题。
下面将对并行编程模型、基于并行编程模型高效海量数据挖掘算法,以及基于云计算的海量数据挖掘服务相关研究进行综述。
2并行编程模型相关方法
为了使用户能够通过简单的开发来方便地达到并行计算的效果,研究人员提出了一系列的并行计算模型。并行计算模型在用户需求和底层的硬件系统之间搭建桥梁使得并行算法的表示变得更加直观,对大规模数据的处理更加便捷。根据用户使用硬件环境的不同,并行编程模型又可以分为在多核机器、GPU计算、大型计算机以及计算机集群上的多种类型。目前比较常用的并行编程接口和模型包括:
pThread接口[2]。pThread是在类Unix系统上进行多线程编程的通用API,为用户提供了一系列对线程进行创建、管理和各类操作的函数,使用户能够方便地编写多线程程序。
MPI模型[3]。MPI的全称为消息传递接口(Message Passing Interface),它为用户提供了一系列的接口,使用户利用消息传递的方式来建立进程间的通信机制,从而方便地对各种算法进行并行实现。
MapRece模型[4]。MapRece模型是由谷歌公司提出的并行编程框架,它首先为用户提供分布式的文件系统,使用户能方便地处理大规模数据;然后将所有的程序运算抽象为Map和Rece两个基本操作,在Map阶段模型将问题分解为更小规模的问题,并在集群的不同节点上执行,在Rece阶段将结果归并汇总。MapRece是一个简单,但是非常有效的并行编程模型。
Pregel模型[5]。Pregel同样是由谷歌公司提出的专门针对图算法的编程模型,能够为大规模数据的图算法提供并行支持。一个典型的Pregel计算过程将在图上进行一系列的超级步骤(SuperSteps),在每个超级步骤中,所有顶点的计算都并行地执行用户定义的同一个函数,并通过一个“投票”机制来决定程序是否停止。
CUDA模型①。CUDA是由NVIDIA公司提出的一个基于GPU的并行计算模型。由于GPU在设计需求上与普通CPU不同,GPU通常被设计为能较慢地执行许多并发的线程,而不是较快的连续执行多个线程,这使得GPU在并行计算上有先天的优势。CUDA为用户提供了利用GPU计算的各种接口,使程序员能够像在普通电脑上进行CPU编程那样进行GPU程序的编写。
此外还有OpenMP、PVM、OpenCL等各种并行编程模型和方法。这些并行编程和方法一般都提供了主流编程语言的实现,从而使得用户能根据自身编程习惯来选用。
另一方面,随着云计算的不断推广,还出现了各种商用的并行计算/云计算平台,为用户提供并行计算服务。这其中比较著名的包括微软的Azure平台、Amazon公司的EC2平台、IBM公司的蓝云平台、谷歌公司的Google App Engine等。各大IT公司也纷纷开发自己的并行计算模型/框架作为自身技术服务的基本平台,这使得并行计算技术得到了更加快速的发展。
3基于并行编程模型高效海量数据挖掘算法研究
为了实现海量数据上的数据挖掘,大量分布式并行数据挖掘算法被提出。Bhari et al[6]整理了一个十分详尽的并行数据挖掘算法文献目录,包含了关联规则学习、分类、聚类、流数据挖掘四大类分布式数据挖掘算法,同时还包括分布式系统、隐私保护等相关的研究工作。
MapRece并行编程模型具有强大的处理大规模数据的能力,因而是海量数据挖掘的理想编程平台。数据挖掘算法通常需要遍历训练数据获得相关的统计信息,用于求解或优化模型参数。在大规模数据上进行频繁的数据访问需要耗费大量运算时间。为了提高算法效率,斯坦福大学Chu et al[7]提出了一种适用于大量机器学习算法的通用并行编程方法。通过对经典的机器学习算法进行分析可以发现,算法学习过程中的运算都能转化为若干在训练数据集上的求和操作;求和操作可以独立地在不同数据子集上进行,因此很容易在MapRece编程平台上实现并行化执行。将大规模的数据集分割为若干子集分配给多个Mapper节点,在Mapper节点上分别执行各种求和操作得到中间结果,最后通过Rece节点将求和结果合并,实现学习算法的并行执行。在该框架下,Chu et al实现了十种经典的数据挖掘算法,包括线性回归、朴素贝叶斯、神经网络、主成分分析和支持向量机等,相关成果在NIPS 2006会议上发表。
Ranger et al[8]提出了一个基于MapRece的应用程序编程接口Phoenix,支持多核和多处理器系统环境下的并行程序设计。Phoenix能够进行缓存管理、错误恢复和并发管理。他们使用Phoenix实现了K-Means、主成分分析和线性回归三种数据挖掘算法。
Gillick et al[9]对单程学习(Single-pass)、迭代学习(Iterative Learning)和基于查询的学习(Query-based Learning)三类机器学习算法在MapRece框架下的性能分别做了评测。他们对并行学习算法涉及到的如何在计算节点之间的共享数据、如何处理分布式存储数据等问题进行了研究。
Mahout①是APS(Apache Software Foundation)旗下的一个开源数据挖掘项目,通过使用Apache Hadoop库,可以实现大规模数据上的并行数据挖掘,包括分类、聚类、频繁模式挖掘、回归、降维等算法,目前已经发布了四个版本。
4基于云计算的海量数据挖掘服务研究
云计算除了给用户提供通用的并行编程模型和大规模数据处理能力之外,另一个重要的特点是为用户提供开放的计算服务平台。在数据挖掘方向,现在也有一系列的系统被开发出来,面向公众提供数据挖掘服务云计算平台。
Talia et al[10]提出可以从四个层次提供云计算数据挖掘服务:底层为组成数据挖掘算法的基本步骤;第二层为单独的数据挖掘服务,例如分类、聚类等;第三层为分布式的数据挖掘模式,例如并行分类、聚合式机器学习等;第四层为之前三层元素构成的完整的数据挖掘应用。在此设计基础上,他们设计了基于云计算的数据挖掘开放服务框架,并开发了一系列的数据挖掘服务系统,例如Weka4WS、Knowledge Grid、Mobile Data Mining Services、Mining@home等,用户可以利用图形界面定义自己的数据挖掘工作流,然后在平台上执行。
PDMiner[11]是由中国科学院计算技术研究所开发的基于Hadoop的并行分布式数据挖掘平台,该系统现在已经用于中国移动通信企业TB级实际数据的挖掘。PDMiner提供了一系列并行挖掘算法和ETL操作组件,开发的ETL算法绝大多数达到了线性加速比,同时具有很好的容错性。PDMiner的开放式架构可以使用户将算法组件经过简单配置方便地封装加载到系统中。
此外,商业智能领域的各大公司也提供面向企业的大规模数据挖掘服务,例如微策略、IBM、Oracle等公司都拥有自己的基于云计算的数据挖掘服务平台。
5总结和展望
通过云计算的海量数据存储和分布计算,为云计算环境下的海量数据挖掘提供了新方法和手段,有效解决了海量数据挖掘的分布存储和高效计算问题。开展基于云计算特点的数据挖掘方法的研究,可以为更多、更复杂的海量数据挖掘问题提供新的理论与支撑工具。而作为传统数据挖掘向云计算的延伸和丰富,基于云计算的海量数据挖掘将推动互联网先进技术成果服务于大众,是促进信息资源的深度分享和可持续利用的新方法、新途径。
⑶ 信息领域的关键问题是什么 海量数据挖掘
如何准确、高效地从丰富而膨胀的数据中筛选出对经营决策有用的信息已经成为企业和机构迫切需要解决的问题。
海量数据挖掘技 术应运而生,并显示出强大的解决能力。Gartner 的报告指出,数据挖掘会成为未来 10 年 内重要的技术之一。
海量数据挖掘关键技术随时代而变化 所谓海量数据挖掘,是指应用一定的算法,从海量的数据中发现有用的信息和知识。 海量数据挖掘关键技术主要包括海量数据存储、云计算、并行数据挖掘技术、面向数据挖 掘的隐私保护技术和数据挖掘集成技术。
⑷ 什么叫大数据,与云计算有何关系。
1,大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
2,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。
他俩之间的关系你可以这样来理解,云计算技术就是一个容器,大数据正是存放在这个容器中的水,大数据是要依靠云计算技术来进行存储和计算的。
(4)云计算海量数据挖掘扩展阅读:
大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。
大数据正是因为数据的爆发式增长带来的一个新的课题内容,如何存储如今互联网时代所产生的海量数据,如何有效的利用分析这些数据等等。
大数据的趋势:
趋势一:数据的资源化
何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。
趋势二:与云计算的深度结合
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
趋势三:科学理论的突破
随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
参考资料:网络-大数据网络-云数据
⑸ 大数据和云计算是什么关系
云计算通俗理解:通过互联网提供全球用户计算力、存储服务,为互联网信息处理提供硬件基础。云计算,简单说就是把你自己电脑里的或者公司服务器上的硬盘、CPU都放到网上,统一动态调用。
大数据通俗理解:运用日趋成熟的云计算技术从浩瀚的互联网信息海洋中获得有价值的信息进行信息归纳、检索、整合,为互联网信息处理提供软件基础。大数据,简单说,就是把所有的数据放到一起分析,找到关联,实现预测。这里的所有数据对应的是之前的抽样调研取得的部分数据。
云计算和大数据的区别:云计算注重资源分配,是硬件资源的虚拟化;而大数据是海量数据的高效处理。大数据与云计算之间并非独立概念,而是关系非比寻常,无论在资源的需求上还是在资源的再处理上,都需要二者共同运用。
云计算和大数据的关系:云计算是基础,没有云计算,无法实现大数据存储与计算。大数据是应用,没有大数据,云计算就缺少了目标与价值。两者都需要人工智能的参与,人工智能是互联网信息系统有序化后的一种商业智能。