大数据污染
A. “雾霾”大数据分析,如何利用大数据预测雾霾
刚好昨天有看到抄一篇相关文章,内容如下:
早在上周,环保局就发布了空气重污染红色预警,很多城市也采取了防范措施,例如单双号限行、工厂停工等。
雾霾天气出现的频率越来越高,它在人们毫无防范的时候侵入人体呼吸道和肺叶中,从而引起呼吸系统疾病、心血管系统疾病等,例如咽喉炎、肺气肿、哮喘、鼻炎、支气管炎等炎症。
借着雾霾这个事情,小草莓今天想给大家展示下BDP的妙用——如何使用BDP查看全国雾霾情况,先来一张PM2.5指数的热力图,看看你有没有生活在这些重度污染的红色区域。
文章来源,微信公众号:小草莓玩数据
B. 大数据在实际生活应用的多吗
现在越来越多的行业和技术领域需要用到大数据分析处理系统。说到大数据处理,首先我们来好好了解一下大数据处理流程。
1.数据采集,搭建数据仓库,数据采集就是把数据通过前端埋点,接口日志调用流数据,数据库抓取,客户自己上传数据,把这些信息基础数据把各种维度保存起来,感觉有些数据没用(刚开始做只想着功能,有些数据没采集, 后来被老大训了一顿)。
2.数据清洗/预处理:就是把收到数据简单处理,比如把ip转换成地址,过滤掉脏数据等。
3.有了数据之后就可以对数据进行加工处理,数据处理的方式很多,总体分为离线处理,实时处理,离线处理就是每天定时处理,常用的有阿里的maxComputer,hive,MapRece,离线处理主要用storm,spark,hadoop,通过一些数据处理框架,可以吧数据计算成各种KPI,在这里需要注意一下,不要只想着功能,主要是把各种数据维度建起来,基本数据做全,还要可复用,后期就可以把各种kpi随意组合展示出来。
4.数据展现,数据做出来没用,要可视化,做到MVP,就是快速做出来一个效果,不合适及时调整,这点有点类似于Scrum敏捷开发,数据展示的可以用datav,神策等,前端好的可以忽略,自己来画页面。
大数据处理在各行业的渗透越来越深入,例如金融行业需要使用大数据系统结合 VaR(value at risk) 或者机器学习方案进行信贷风控,零售、餐饮行业需要大数据系统实现辅助销售决策,各种 IOT 场景需要大数据系统持续聚合和分析时序数据,各大科技公司需要建立大数据分析中台等等。
C. 大数据时代,云数据隐私如何保护
大量数据背后隐藏着大量的经济与政治利益,尤其是通过数据整合、分析与挖掘,其所表现出的数据整合与控制力量已经远超以往。大数据如同一把双刃剑,社会因大数据使用而获益匪浅,但个人隐私也无处遁形。近年来侵犯个人隐私案件时有发生,如谷歌泄露个人隐私事件、盛大云数据丢失事件、2011年韩国三大门户网站之一Nate和社交网络“赛我网”遭到黑客攻击,致使3500万用户信息泄露等事件,这些严重侵犯了用户的合法权益。世界经济论坛的一份报告中强调要通过使用高科技手段保护人们的隐私,通过对云平台的隐私保护手段的多项案例研究,志欣合众公司总结以下几种技术平台的隐私保护手段:1、云平台常见的隐私保护手段(1)无菌隔离“无菌隔离”主要用于多组人、批量性数据流转与处理。此手段如同生物隔离室,可运用机械手、远程方式进行操作,但并不会直接接触到事物本身。引申至云平台,操作员在下达命令时应采用通过已测试验证、安全有效的操作工具(或管理系统)对数据进行操作与管理,数据在各系统或子系统中流转应该是“无菌隔离”的,人员无法直接接触到原数据,数据流转是系统对系统,最终数据输出至使用部门。案例:某省移动云平台,建立数据集市系统应对数据安全,数据流转采用操作人员下达指令方式推送,各子系统接收集市平台推送的数据,全程数据“无污染”。(2)黑白盒策略通过无菌隔离得到数据后,最终操作、分析数据的业务人员应是不知道实现的机制与原理,数据已按预定义的行为操作进行了剥离,通常业务人员权限不高,剥离数据的限制较高参与。案例:某电商网站在双十一活动结束后,数据无菌隔离进入分析系统,业务操作人员基于黑白盒策略只能操作剥离下来的部份数据进行数据汇总分析,结果形成汇总统计而不会泄露用户隐私信息。(3)信息域管理信息域是被管理信息的集合,它被安排满足下列组织要求:按若干个功能用途(或方针)诸如按安全、计费、故障管理等划分环境,或者按每一个用途诸如按地理、技术或组织结构划分环境。不同的信息域存储的内容不一样,不同的信息域安全级别不同,不同的信息域要求的授权不一致,不同的信息域所针对的业务也不相同。案例:某游戏系统需划分成多个信息域,用户账户信息域、游戏服务器信息域、经济系统信息域、道具信息域等,各信息域可轻耦合,也可无不关联,每信息域的进入门槛与权限系统也各不相同。(4)信息片段管理若干个信息片段组成一个信息域,这些片断基本是服务于一个业务。案例:以用户账户信息域为例,用于账户认证与账户相关资料的应保存于不同的信息域中,成为多个信息片断。隐私保护的手段与级别示意图: 2、云数据管理隐私保护具备的特征云平台的隐私保护手段保证了云数据的安全性,志欣合众公司技术总监张晓康指出,云数据管理的隐私保护具有三个特征:(1)云数据管理不允许超级管理员存在云数据管理需在制度上与技术平台上屏蔽超级管理员的存在,能力越强,责任越大,不是每个人都具备承担超级管理员的特质,且该角色的存在理论上就存在极大风险。(2)数据安全才不会泄露隐私数据安全意指通过一些技术或者非技术的方式来保证数据的访问是受到合理控制,并保证数据不被人为或者意外的损坏而泄露或更改。从非技术角度上来看,可以通过法律或者一些规章制度来保证数据的安全性;从技术的角度上来看,可以通过防火墙、入侵检测、安全配置、数据加密、访问认证、权限控制、数据备份等手段来保证数据的安全性。对于任何一个IT系统来说,在运行生命周期过程中使用的和生产的数据都是整个系统的核心部分。我们一般把这些系统数据分为公有数据和私有数据两种类型。公有数据代表可以从公共资源获得的数据信息,例如股票信息、公开的财务信息等,这类数据可以被任何一个IT系统获得并使用。而私有数据则代表这些数据是被IT系统所独占并无法和其它IT系统所共享的信息。对于公有数据,使用它们的IT系统并不需要处理安全相关的事务,然而对于私有数据特别是一些较为敏感的私有数据,在构建IT系统时需要专门考虑如何保证数据不被盗用甚至修改。传统的IT系统通常搭建在客户自身的数据中心内,数据中心的内部防火墙保证了系统数据的安全性。和传统软件相比,云计算在数据方面的最大不同便是所有的数据将由第三方而非第一方来负责维护,并且由于云计算架构的特点,这些数据可能被存储在非常分散的地方,并且都按照明文的方式进行存储。尽管防火墙能够对恶意的外来攻击提供一定程度的保护,但这种架构使得一些关键性的数据可能被泄露,无论是偶然还是恶意。例如,由于开发和维护的需要,软件提供商的员工一般都能够访问存储在云平台上的数据,一旦这些员工信息被非法获得,黑客便可以在万维网上访问部署在云平台上的程序或者得到关键性的数据。这对于对安全性有较高要求的企业应用来说是完全不能接受的。3、开发者和管理者分离程序开发者与实际管理人员分离,开发者不能掌控生产系统管理权限,管理人员不明白系统架构与运作机理,只能通过已测试并经授权的管理界面进行操作。如何保障云数据的安全性志欣合众通过对云数据安全的相关技术深入研究,总结需使用两步法来保证云数据的安全:第一步:身份认证。身份认证如同锁与钥匙的关系,有三个方面需要注意。首先是密码,每个网站都有自己的账户和密码,理想状态是每个网站中每个用户的不可逆加密密码都是唯一的,同网站中当一个账户被破解后,其它账户是安全的。不能设定相同密码,因用户密码相同而降低其它账户的安全性。接下来是双重身份认证,即需要通过两种模式登录网站,不仅需要用户名和密码,还需要一个动态口令,如通过短信形式发送到手机上,只有输入正确的用户名、密码以及动态口令才能登录,这样为账户又增加了一道锁。最后注意的是登录的终端,一般情况下我们通过自己的设备进行数据操作,但有时也会在非自己的设备上进行登录操作,其它设备通过浏览器进行信息保存时,很容易造成信息泄露,因此需要使用隐私模式操作或操作完成之后进行数据清理。第二步:平台环境。平台环境的安全如同银行的金库系统,涉及四个层次:第一:通讯安全。如同银行的金库系统,别人能不能进入银行金库。首先需有一个信息安全通道,在技术上需采用数字认证与高强度流加密算法保证通道安全,不能被截获;第二:平台系统安全。如同银行的保险柜好不好,平台系统由硬软件组成。硬件层面要确保稳定;软件平台在操作系统层面需时刻检查系统本身有没有漏洞,进行漏洞扫描,打补丁,防范风险的发生;应用软件层面需防止后门存在,加强测试;第三:加密系统安全。如同银行保险柜加密锁够不够好,加密系统够不够安全,系统中各出入口、各项敏感数据均需进行加密存储,即便被黑拿到数据也无法被破解成明文;第四:防止扩散。确保发生安全事故后损失不会扩大,即使有一部份数据泄露了,也不会对整体造成影响。