大数据误区
⑴ 大数据误区有哪些
1、大数据误区——大数据≠拥有数据
很多人认为拥有数据,尤其是拥有大量数据,就是大数据。这绝对不是真的。大量的数据并不是大数据。但是,保险公司可以利用气象大数据预测自然灾害,调整自然灾害相关的保险费率,从而发展其他商业价值,形成大数据的商业环境。因此,利用大数据,甚至关联、交流,都能产生真正的价值,形成DT时代独特的大数据业务。
2、大数据误区——大数据≠报告平台
有很多公司建立了自己的报告中心,或者大屏幕演示中心,然后马上宣布他们已经实现了大数据,但这还不够。虽然报告也是大数据的一种形式,但真正的大数据业务并不是生成报告供人们指导,而是隐藏在大数据表象下的一套报告系统。在大数据的闭环系统中,一切都是数据的生产者和用户。通过自动智能闭环系统、自动学习和智能调节,提高了整体生产效率。
3、大数据误区——大数据≠计算平台
我看过一篇报道,是关于一家金融机构建立了自己的大数据系统。稍后进一步观察会发现,它已经设置了一个拥有数百台机器的Hadoop集群。大数据计算平台作为大数据应用的技术基础,是大数据闭环中非常重要和不可缺少的一部分。但是,不能说有了计算平台就有了大数据。例如,如果我买了一个锅,我不能说我有一个盘子。从锅到菜,我还需要原材料(数据),工具(加工工具)和厨师(数据处理)来完成最后的制作。
4、大数据误区——大数据≠精准营销
我见过很多创业公司在做大数据。如果你仔细观察,你会发现他们所做的是一个基于大数据、广告投资等的推荐引擎。这是大数据吗?他们所做的就是大数据的应用,可以说是大数据的一种。只是大数据的整个生态系统不能这样表达。就像大象的耳朵是大象的一部分一样,它们并不代表大象。
有哪些大数据误区?想做好大数据工程师就要注意这些,当一个新的数据洞察或者大数据应用出现的时候,很多人认为拥有数据,尤其是拥有大量数据,就是大数据。这绝对不是真的,你能处理好吗?如果您还担心自己入门不顺利,可以点击本站其他文章进行学习。
⑵ 大数据工程师数据治理误区包括哪些
【导语】大数据时代,数据成为社会和组织的宝贵资产,像工业时代的石油和电力一样驱动万物,然而如果石油的杂质太多,电流的电压不稳,数据的价值岂不是大打折扣,甚至根本不可用不敢用,那么大数据工程师数据治理误区包括哪些?
误区一:客户需求不明确
客户既然请厂商来帮助自己做数据治理,必定是看到了自己的数据存在种种问题。但是做什么,怎么做,做多大的范围,先做什么后做什么,达到什么样的目标,业务部门、技术部门、厂商之间如何配合做······很多客户其实并没有想清楚自已真正想解决的问题。数据治理,难在找到一个切入点。
误区二:数据治理是技术部门的事
数据问题产生的原因,往往是业务>技术,如:数据来源渠道多,责任不明确,导致同一份数据在不同的信息系统有不同的表述;业务需求不清晰,数据填报不规范或缺失,等等。很多表面上的技术问题,如ETL过程中某代号变更导致数据加工出错,影响报表中的数据正确性等,在本质上其实还是业务管理的不规范。
误区三:大而全的数据治理
出于投资回报的考虑,客户往往倾向于做一个覆盖全业务和技术域的、大而全的数据治理项目。从数据的产生,到加工、应用、销毁,数据的整个生命周期他们希望都能管到。从业务系统,到数据中心,到数据应用,里面的每个数据他们希望都能被纳入到数据治理的范围中来。
关于大数据工程师数据治理误区,就给大家分享到这里了,希望大家以后在进行大数据分析的时候,能够有效避免。
⑶ 大数据误区 不是所有公司都需要大数据
大数据误区:不是所有公司都需要大数据
“大数据”无处不在。从社交媒体初创公司到纽约的中央公园,每个公司似乎都在部署大数据分析。
著名数据分析公司Gartner的数据似乎也在证明这一点:最近的一份报告显示,大数据将带动2012年全球280亿美元的IT支出,到2016年这个数字将超过2300亿美元。2300亿美元几乎是葡萄牙全年的国内生产总值。
但是,你需要花大价钱来部署大数据技术解决方案。大多数公司都没有这么多IT预算,也请不起数据科学家或者数据分析团队。
如果那些提供大数据服务的公司想为各种规模的企业提供服务,那么有几个问题必须认识到并加以解决。
大数据太贵了!
您可能听说过那些使用大数据的辉煌案例:Facebook每天要存储大约100TB的用户数据;NASA每天要处理约24TB的数据。这些数字确实令人印象深刻。
那么处理这些数据所需的成本是多少呢?按照亚马逊Redshift的定价,NASA需要为45天数据存储服务支付超过100万美元。
根据最近的一项调查,大多数企业的CIO称他们的预算支付不起大数据部署的成本。数据存储和处理的成本实在太高,我们需要寻求其他的解决方案,让规模较小的公司不被“大数据”拒之门外。
大数据的关键不是“大”
目前全球最大的科技公司都需要和PB级规模的数据打交道。然而,SAP的研究表明,95%的企业通常只需要使用0.5TB到40TB的数据。
Facebook和NASA的例子是个例外,而不是常态。事实是,处理数据并不是大公司的专利。如果你研究一下美国公司的规模,你会发现有超过50000家公司只有20至500名员工,其中大部分都有解决数据问题的需求。所以大数据市场最大的需求并不是来自那些《财富》50强的大企业,而是来自《财富》500000强。为什么我们只关注那些少数的例外,而忽视了那些大多数有数据处理需求,但既不是《财富》50强也没有PB级规模数据的公司?
有时候我在想,如果我们改变了大数据的定义会发生什么?通常人们用3V(velocity,volume,variety)来描述大数据,我们不妨换一个说法:“大数据是一种主观状态,它描述的是一个公司的基础架构无法满足其数据处理需求时的情形。”
这个定义可能没有那么光鲜,但它肯定会更接近今天的现实。