① 面临大数据挑战我们该怎么做

大数据的其中两个特性是数据量大跟实时性,这是企业目前处理大数据所面临的最主要的两个挑战。我们可以看到数据的这两个属性,是传统关系型数据库也一直在处理的问题。
如果光从字面上去理解“大数据”,我们通常会认为大数据就是数据的大爆发,侧重于强调数据的量。但是如果你去总结IBM、ORACLE、EMC对于大数据的定义话,它的外延还包括了数据的多样性已经分析的实时性。
大数据的其中两个特性是数据量大跟实时性,这是企业目前处理大数据所面临的最主要的两个挑战。我们可以看到数据的这两个属性,是传统关系型数据库也一直在处理的问题。如果说传统关系型数据库目前尚不能够满足企业的业务需求,那么技术的研究方向也应该是按照关系型数据库这种技术架构进行进行下去。要知道,传统关系型数据库跟目前针对大数据的非结构化数据库的架构类型是完全不一样的。关系型数据库已经存在了40多年,对于数据处理也已经显得非常成熟,如果企业要用新兴的非结构化数据去取代它,那么会不会面临“捡了芝麻,丢了西瓜”的结局我们也不得而知。
那再让我们来看大数据的第三个特性:“数据的多样性”。这里的“多样性”意味着非结构化数据变得越来越多。
事实上,全球产生的数据中85%以上的确是非结构化的数据。但企业主要处理的还是结构化的数据。大多数厂商的非结构化数据分析工具也是转换成结构化数据之后再进行处理。那么大数据的真正之“大”在于如何将非结构化数据处于成结构化数据,以及之后的对于大量结构化数据的并行处理能力。这跟许多厂商的强调的“非结构化”数据本身并无太大关联。
一些非常资深的数据库专家认为:能把最简单的业务,简单的数据形态挖掘深入才能体现功底,电商这类复杂业务挖掘出一点成果容易,深入难,许多企业不去强调对于数据的挖掘,而在强调工具和技术。这些专家也在提醒,结构化数据相对小,但是富矿,非结构化数据大,但是贫矿,如果富矿还没开始采就转攻大贫矿,后果可想而知。
关于大数据的成本风险
只要不是钱多得烧不完的企业,其IT部门始终要面临这样一个问题:用尽可能少的钱去创造尽可能多的价值。
数据库建设无疑是企业IT预算的大头。一个项目建设花费掉上千万在中国许多企业是非常正常的事情。然而我们看得到的是大数据的建设其花费肯定将不会低于原来传统关系型数据库的花费。
现在很多厂商正在给与我们这样的案例,许多企业依靠大数据的能够,发现了以前根本无法发现的机遇,拓展了自己的市场。那我们就必须要讨论一下大数据的有效性,到底企业利用大数据给企业带来了多少额外增加的价值?这种增加的价值是否能够企业的投入有一个非常好的比例。而且更为重要的一点是,是否只要使用大数据就一定能够给企业带来以前不可能实现的价值?
当然,任何一种新技术的出现都要面临许许多多的挑战,大数据也是一样。只有那种能够给企业带来实际价值的技术才有真正的生命力。任何企业绝对不会为了采用新技术而应用新技术,技术最终的落脚点一定是实现业务价值。
大数据还处于成长当中,许多IT厂商也认为目前大数据需要和传统关系型数据仓库共存。如果企业的确希望利用新兴技术实现业务的突破,那么也应该必须慎重。