ibm数据治理
1. 现在有什么比较好的资金分析思路和方法
资金分析,其实是一个非常庞大的课题,不同的行业及业务场景下,资金分析的含义是不同的,例如金融机构的风控部门进行资金分析的目的在于发现风险交易及风险用户,提升金融的监管力度,维持金融秩序。而对于商业,例如商户分析资金,可能目的在于分析营收状况,改变运营策略等。虽然不同的行业有不同的分析目的,但是对于资金这一特殊数据的分析思路和方法却有共通之处。
在谈论任何分析思路和方法前,如何处理原始数据是挡在分析前都第一道关,不对原始数据做处理的人和分析都是无效和失真极大的,而原始数据的处理其实就是提高原始数据的可信度与准确性,现在称作数据治理,而进行数据治理最普遍的工具就是Excel和函数,进行数据的去重,去错,及补全。除此之外,一些处理数据的工具也是不错的选择,利润各种数据清洗脚本,成熟化的工具,例如火治这款数据治理公举,也是民间常用的一款清洗利器。
在有数据治理后,就该谈论分析思路和方法了,而思路换而言之是数据中的分析点,什么点可以分析,能够得到什么,这便是思路,而对于资金分析,常见的分析点要:异常的交易记录,账户的整体收入与支出,账户的整体资金规模及变化趋势,资金交易的时间规律,金额规律,资金的聚类分析,使用人的Ip,mac信息等,这些分析点是目前资金分析所常见的分析要点,根据这些分析要点可以得到具体的决策信息。
而说到分析方法,换而言之是使用什么工具分析,工具是方法的核心 有工具才有基于关机的方法,最通用的分析工具就是数据透视,可以解决大部分统计类的分析,但如果需要进行非统计类的,例如关联分析,这些工具久不够用了,需要借助专业化的工具,尤其是可视化工具,市面上现在用的较多的是火眼金睛,Data C,fas等,都是主流工具,我自己之前使用过i2,自身感觉如果需要更灵活的,亘高的自由度,推荐火眼金睛软件,而Data c,fas灵活度就差许多,以上呢是自身结合自己的一些经验所总结的一些心得,希望和各路大神多多交了讨教。
2. 大数据治理的图书目录
第一部分 开篇 第1章 大数据治理概述 第2章 大数据治理的框架 2.1 大数据类型 2.2 信息治理准则 2.3 大数据治理的产业和功能场景 第3章 成熟度评估 3.1 IBM信息治理委员会的成熟度模型 3.2 评估成熟度的示例问题 第4章 业务案例 4.1 通过大数据治理,提高运营实时性和旅客安全度 4.2 量化大数据治理对客户隐私的财务影响 4.3 通过治理大数据生命周期,降低IT成本 4.4 评估数据质量和主数据对大数据计划的影响 4.5 计算大数据质量的价值 第5章 路线图 5.1 路线图案例研究 第二部分 大数据治理准则 第6章 大数据治理的组织 6.1 绘制关键流程图并建立职责分配模型,以识别大数据治理中的利益攸关者 6.2 确定新角色和既有角色的适当组合 6.3 酌情任命大数据主管 6.4 在传统信息治理角色的基础上,酌情增加大数据责任 6.5 建立承担包括大数据在内的责任混合式信息治理组织 第7章 元数据 7.1 创建一个体现关键大数据术语的业务定义的词库 7.2 理解对ApacheHadoop中元数据的持续支持 7.3 对业务词库中的敏感大数据进行标记 7.4 从相关的大数据存储中输入技术元数据 7.5 将相关的数据源与业务词库中的术语进行链接 7.6 使用运营元数据监测大数据的流动 7.7 保留技术元数据,以支持数据血统和影响分析 7.8 从非结构化文件中采集元数据,支持企业搜索 7.9 扩展既有的元数据角色,将大数据纳入其中 第8章 大数据隐私 8.1 识别敏感的大数据 8.2 对元数据库中的敏感大数据进行标记 8.3 应对国家、州(省)层面的隐私立法和隐私限制 8.4 管理个人数据跨国界流动的情况 8.5 监控特权用户对敏感大数据的访问 第9章 大数据质量 9.1 与商业上的利益攸关者协作,建立并测度大数据质量的置信区间 9.2 利用准结构化和非结构化数据,提高人口稀疏的结构化数据的质量 9.3 使用流数据分析技术解决内存中的数据质量问题,无须将中间结果输入硬盘 9.4 任命对信息治理委员会负责的数据主管,由其负责提高测度的质量 第10章 业务流程整合 10.1 识别将会受到大数据治理影响的关键流程 10.2 建立关键活动的流程图 10.3 针对业务流程中的关键步骤,制定大数据治理政策 第11章 主数据整合 11.1 提高主数据的质量,以支持大数据分析 11.2 利用大数据提高主数据的质量 11.3 提高关键参考数据的质量和一致性,以支持大数据治理计划 11.4 审视社交媒体平台政策,以确定与主数据管理整合的程度 11.5 从非结构化文本中挖掘有用信息,以丰富主数据 第12章 管理大数据的生命周期 12.1 基于规制和业务要求,扩展保留时间表,将大数据包含其中 12.2 提供法律保留区,并支持电子证据展示(eDiscovery) 12.3 压缩大数据并将其存档,降低IT成本,提高应用绩效 12.4 管理实时流数据的生命周期 12.5 保留社交媒体记录,以符合规制要求,并支持电子证据展示 12.6 基于规制和业务要求,正当合理地处置不再需要的大数据 第三部分 大数据的类型 第13章 Web和社交媒体数据 13.1 在制定有关客户社交媒体数据的可接受使用的政策时,考虑不断变化的规制和习俗 13.2 制定有关雇员和求职者社交媒体数据的可接受使用的政策 13.3 利用置信区间评估社交媒体数据的质量 13.4 制定有关Cookies与其他Web跟踪装置的可接受使用的政策 13.5 在不侵犯隐私并遵从规制要求的基础上,定义连接在线和离线数据的政策 13.6 确保网络统计数据的一致性 第14章 机器对机器的数据 14.1 评估目前可用的地理位置数据 14.2 制定关于客户地理位置数据的可接受使用的政策 14.3 制定关于雇员地理位置数据的可接受使用的政策 14.4 保证RFID数据的隐私安全 14.5 制定与其他类型M2M数据的隐私相关的政策 14.6 处理元数据和M2M数据的质量问题 14.7 制定与M2M数据的保留期有关的政策 14.8 提高主数据的质量,以支持M2M计划 14.9 确保SCADA设施免遭网络攻击 第15章 大体量交易数据 第16章 生物计量学数据 16.1 评估与生物计量学数据的可接受使用相关的隐私含义 16.2 与法律顾问通力合作,确定演进中的规制对使用客户和雇员生物计量学数据的影响 第17章 人工生成的数据 17.1 制定屏蔽敏感的人工生成数据的政策 17.2 使用非结构化的人工生成数据,提高结构化数据的质量 17.3 管理人工生成数据的生命周期,降低成本并遵循规制要求 17.4 从非结构化的人工生成数据中获得洞察力,以丰富MDM 第四部分 行业视角 第18章 医疗保健机构 18.1 利用非结构化数据,提高人口稀疏的结构化数据的质量 18.2 提取从结构化数据中无法获得的更多临床因素 18.3 设定关键业务术语的一致性定义 18.4 确保跨科室的患者主数据的一致性 18.5 与美国HIPAA的规定一致,符合受保护的健康信息的隐私要求 18.6 创造性管理参考数据,以获得更多临床洞察 第19章 公用事业部门 19.1 复制仪表读数 19.2 主关键字的参照完整性 19.3 异常的仪表读数 19.4 客户地址的数据质量 19.5 信息生命周期管理 19.6 数据库监测 19.7 技术架构 第20章 通信服务提供商 20.1 大数据类型 20.2 将大数据与主数据进行整合 20.3 大数据隐私 20.4 大数据质量 20.5 大数据生命周期管理 第五部分 大数据技术 第21章 大数据的参考架构 21.1 大数据源 21.2 开源基础组件 21.3 Hadoop发行版 21.4 流数据分析 21.5 数据库 21.6 大数据整合 21.7 文本分析 21.8 大数据发现 21.9 大数据质量 21.10 大数据的元数据 21.11 信息政策管理 21.12 主数据管理 21.13 数据仓库与数据集市 21.14 大数据分析与报告 21.15 大数据安全与隐私 21.16 大数据生命周期管理 21.17 云 第22章 大数据平台 22.1 IBM 22.2 甲骨文 22.3 SAP 22.4 微软 22.5 HP 22.6 Informatica 22.7 SAS 22.8 Teradata 22.9 EMC 22.10 Amazon 22.11 谷歌 22.12 Pentaho 22.13 Talend 附录 缩略语列表 译者后记
3. 目前主流的数据治理平台有那些。
睿治数据治理平台是亿信华辰完全自主研发的、开创性的、一站式综合数据治理整内体解决方案。睿治是全容国唯一实现了数据治理场景全覆盖的突破性产品,九大核心模块:元数据、数据标准、数据质量、主数据、数据资产、数据安全、数据交换、数据处理、数据生命周期等,以创新的方式保证了企业的业务数据在采集、汇总、转换、存储、应用整个过程中的完整性、准确性、一致性和时效性,全面为客户量身打造符合自身特征的数据治理体系。
睿治始终站在国内顶尖梯队,广泛应用了MQ、分布式计算、zookeeper等最新技术。同时引领国内行业发展趋势:
1、数据质量自动探查,内置常规数理统计算法支持绑定机器学习算法;
2、数据关系智能构建,基于存储过程、sql、数据库定义,自动理解数据之间的关系;
3、资产目录主动感知,活化更新等先进技术,确保成为当之无愧的领头羊。