① 怎样理解互联网行业“数据分析”的意义

本文通过以下七部分拆解数据分析:
一、什么场景和行业需要数据分析
二、数据分析会骗人吗?
三、怎样排除虚假流量
四、PC端数据分析指标&方法论
五、电商、金融行业数据分析
六、数据分析的趋势
七、怎么培养数据分析的能力?
第二部分拆解六、七部分
六、数据分析的趋势
第一个趋势,大数据的对面不是小数据,而是深数据。大数据以用户量级取胜,同样的营销和经营打法只适用于固定的一类属性的人,转化率不变,分母变大,扩展更多的人群基数,是大数据打法的制胜关键。深数据是说限定一个人群,然后把精力放在收集这群人的购物各个阶段的数据上,用各种各样的营销和经营策略在用户各个购物阶段上进行关怀,提升的是某一个用户的转化率,但分母不变,制胜关键与大数据打法不同,对一个人购物阶段的数据越完整、判断越精准越好。用户基数再大总会有天花板,所以后续的竞争会有相当一部分企业尤其是大企业转向深数据的应用方向。
第二个趋势,大数据采集的壁垒可能会进一步降低。现在各家采集的数据都是自己使用,不愿意公开,或者是采集标准不同,不相信别人采集数据的准确性。这样会造成同一个数据源就会被重复采集,既浪费了硬件资源,也浪费了人力资源。其实对于同一个数据来说,只要采集的方法相同,只需要采集一次,共享就可以了。后面随着数据分析领域的标准化和统一化,数据资源会产生更多交换和交易,在数据采集这个环节会占用更少的精力,从而做更多的数据分析的事情,让数据能产生更高的价值。
第三个趋势,我认为数据分析的岗位可能慢慢就会消失了。数据分析岗位的消失在近几年不会出现,但未来十年内不好说。我认为数据分析的技能对所有互联网从业者来说,就像对于办公软件以及语言的掌握一样,会成为人人必备的技能。
第四个趋势,机器学习的发展将最大限度实现程序化数据应用。
目前数据应用的很多环节都在应用机器学习,比如程序化购买、自动化广告素材优化、智能商品推荐等等,但相互之间是割裂的,还需要人去做各个环节的串联。机器学习会慢慢替代人来串联一个一个的程序化模块,程序化的整体数据应用方案将会覆盖互联网领域。
这四个趋势我认为是我们很快就能够看得到的。
七、怎么培养数据分析的能力?
第一个建议,方向比努力还要重要。
数据分析并不是一个特别细分的领域,它里面包含了很多的方向。作为一个数据分析的入门者,当你了解了数据分析行业概况之后,你要做的一件事情就是了解这个行业有哪些方向,选择一个方向深挖。数据分析有三个常见的发展方向。一是数据挖掘;二是数据建模和数据应用;三是商业数据分析。每个方向都不容易到达巅峰,所以尽快确定主攻方向,尽快扎进去有助于迅速成长为一个领域的专家,和其它专家共同协作攻克数据分析领域更前沿的课题。
第二个建议,懂生意比懂数据重要。
一开始我们就谈到数据的价值是要最终服务于某个具体业务的,所以要想让数据发挥更高价值,对于业务知识的掌握是需要重视的,否则数据分析结果和业务存在距离或不能落地,不能实现商业增值,数据就会因此贬值了。
第三个建议,在场景里做分析比理论分析更重要。
第一方面,优化流量。流量并不是跟媒体或用户斗智斗勇,其本质是面向竞争对手的战争,要争取用同样的价钱买到更多的流量或者同样的流量花的钱更少。有时太关注用户属性或媒体价格,反而忽略了和竞争对手的博弈关系,这种博弈需要人的参与,单纯依靠机器博弈会忽视场景做出错误决策。
第二方面,用户体验输出。你面向的是用户,所以更重要的是你的内容如何跟用户产生共鸣。并不是说你设计的多漂亮、运行的多流畅,而是涉及到用户情感和用户感受层面,这也是量化指标难以驾驭的,需要加入人脑对于场景的理解才能做好。
第四个建议,注重人机协作。
对刚入门的数据分析师,我非常建议把人机协作这件事情提上日程,作为重点学习的方面,善于利用机器的力量代替人的力量,把人解放出来做人更擅长做的事情,人机配合最大化。机器擅长数据清洗、数据建模、数据预警、数据可视化等,所以提升数据分析能力一定是面向未来的,善于让机器去做它更擅长的事情,人去弥补机器的不足,更高效地完成分析工作,节省下来的时间就用来提升人独有的能力。

② 数据分析的意义

在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如J.开普勒通过分析行星角位置的观测数据,找出了行星运动规律。又如,一个企业的领导人要通过市场调查,分析所得数据以判定市场动向,从而制定合适的生产及销售计划。因此数据分析有极广泛的应用范围。
网络营销
对网络营销的意义
在中国,尽管网络营销的概念很火,但网络营销的效率低于一些发达国家也是事实。无论是门户广告、搜索引擎广告,还是广告联盟,从行业平均转化率上看,都要低于国外较为成熟国家的水平。据估计,国内的Bounce rate(蹦失率,即用户只浏览第一页即离开的比例)介于90%~99%之间,而欧美的Bounce rate则是70%左右。
诚然,国内的网络营销环境处于发展之中,环境不那么尽如人意,但中国互联网络信息中心分析师孙秀秀认为,出现这种情况的很多责任在投放广告的企业方,在于对营销背后的数据分析工作的不重视,没有精确定位有效的客户群,导致大量的展示给了不相关的网民。
通常,广告投放前的数据分析可以分为两步走。第一步:描述目标群体。比如,目标群体是18~25岁,上网购物的年轻女性。第二步:描述此群体的网络活动轨迹。
也就是说,知道目标客户群上什么网站、做什么事、在什么时间地点能够找到他非常重要。实际上,论覆盖面,网络营销还远远赶不上传统媒体。2009年底中国的互联网普及率为28.9%,而同期中国电视的普及率却已经超过80%。但是,仍旧有很多有远见的企业选择网络营销。其中的一个重要原因是,网络营销的全过程都可以被追踪到,通过数据分析可以随时调整投放方式。
采用的分析方法如下:
1、描述性统计分析
包括样本基本资料的描述,作各变量的次数分配及百分比分析,以了解样本的分布情况。此外,以平均数和标准差来描述市场导向、竞争优势、组织绩效等各个构面,以了解样本企业的管理人员对这些相关变量的感知,并利用t检验及相关分析对背景变量所造成的影响做检验。
2、Cronbach’a信度系数分析
信度是指测验结果的一致性、稳定性及可靠性,一般多以内部一致性(consistency)来加以表示该测验信度的高低。信度系数愈高即表示该测验的结果愈一致、稳定与可靠。针对各研究变量的衡量题项进行Cronbach’a信度分析,以了解衡量构面的内部一致性。一般来说,Cronbach’a仅大于0.7为高信度,低于0.35为低信度(Cuieford,1965),0.5为最低可以接受的信度水准(Nunnally,1978)。
3、探索性因素分析(exploratory factor analysis)和验证性因素分析(confirmatory factor analysis)
用以测试各构面衡量题项的聚合效度(convergent validity)与区别效度(discriminant validity)。因为仅有信度是不够的,可信度高的测量,可能是完全无效或是某些程度上无效。所以我们必须对效度进行检验。效度是指工具是否能测出在设计时想测出的结果。收敛效度的检验根据各个项目和所衡量的概念的因素的负荷量来决定;而区别效度的检验是根据检验性因素分析计算理论上相关概念的相关系数,检定相关系数的95%信赖区间是否包含1.0,若不包含1.0,则可确认为具有区别效度(Anderson,1987)。
4、结构方程模型分析(structural equations modeling)
由于结构方程模型结合了因素分析(factor analysis)和路径分析(path analysis),并纳入计量经济学的联立方程式,可同时处理多个因变量,容许自变量和因变量含测量误差,可同时估计因子结构和因子关系。容许更大弹性的测量模型,可估计整个模型的拟合程度(Bollen和Long,1993),因而适用于整体模型的因果关系。在模型参数的估计上,采用最大似然估计法(Maximum Likelihood,ML);在模型的适合度检验上,以基本的拟合标准(preliminary fit criteria)、整体模型拟合优度(overall model fit)以及模型内在结构拟合优度(fit of internal structure of model)(Bagozzi和Yi,1988)三个方面的各项指标作为判定的标准。在评价整体模式适配标准方面,本研究采用x2(卡方)/df(自由度)值、拟合优度指数(goodness.of.f:iJt.in.dex,GFI)、平均残差平方根(root—mean.square:resial,RMSR)、近似误差均方根(root-mean—square-error-of-approximation,RMSEA)等指标;模型内在结构拟合优度则参考Bagozzi和Yi(1988)的标准,考察所估计的参数是否都到达显著水平