郭岳 - 运营商数据治理实践

稽慕蕊

2018/05/13 发布于 技术 分类

大数据时代的业务支撑面临“运维,管理,增值”三大压力,个开发,架构,运维体系都难已承载巨量的数据,对平台支撑以及系统管理能力带来巨大的挑战。在2015年中国数据库技术大会上来自浙江移动信息技术部技术保障部数据库架构师郭岳为我们分享了运营商数据治理实践的精彩内容...

文字内容
1. 运营商数据治理实践 大数据时代下的数据治理
2. 自我介绍  郭岳 (三少)  Oracle 10G OCM(2009年)  中国移动通信集团浙江有限公司 技术保障部  中国移动集团专利评审专家  新浪微博:正牌三少  微信:qq379622  邮箱:guoyue@zj.chinamobile.com
3. 第一部分 第二部分 第三部分 第四部分 数据治理的概念 浙江移动的数据治理计划 实施阶段成果 后续展望
4. 大数据时代诞生推动数据资产管理发展 “大数据时代”的诞生: 半个世纪以来,随着计算机技术全面融入社会生活, 信息爆炸已经积累到了一个开始引发变革的程度。它不仅使 世界充斥着比以往更多的信息,而且其增长速度也在加快。 信息爆炸的学科如天文学和基因学,创造出了“大数据”这 个概念。同时,信息的价值得到充分的发掘,企业运用数据 创造了更大,更多的价值。 因此,数据被业界公认为是企业的最宝贵资产之一。 … facebook 社交网络 电子商务 淘宝、 ebuy … … 微博、 Apps 移动互联 大数据时代的来临使得数据的价值逐步显性化,也被各 种组织和企业更加重视。如何应用手中的数据资产,指 导其日常运营,战术和战略制定,提供更好的产品和服 务、降低成本,控制风险成为组织和企业的首要问题。 数据治理当前已经成为IT业界的一门新兴学科被广泛研 究。
5. 当数据成为数据资产 纷繁多样的数据不断在产生,如何使数据变成企业的数据资产,数据资产通常被认为必须具 备可控制、可量化、可变现的特性。 可控制 企业自身生产或者取得的数据, 必须是高度清晰的,可以充分被 企业所掌控,完全被企业所拥有 和进一步应用的数据。 数据 资产 可量化 数据资产货币化,以货币形式 对数据资产进行评估和测量, 有利于企业内以同一口径衡量 数据价值 可变现 可变现 企业通过数据挖掘和分析、数据租售、信息销售 等方式,持续将自身掌握的数据资产变现,使数 据资产保值和增值。
6. 数据资产管理与DAMA 数据资产管理(Data Asset Management,简称DAM)正是规划、控制、和提供数据这种 企业资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、 方案和程序,从而控制、保护、交付和提高数据资产的价值。 -- 摘自DMBOK 在国外随着数据管理行业的成熟和发展,数据 资产管理作为一门专业管理领域被人们广泛研 究和总结,国外一些数据资产领域的专家和学 者成立了数据资产管理专业论坛和组织DAMA, 总结出数据资产管理相关理论指导体系。 同时仿照项目管理PMBOK编写了关于数 据资产管理的专业著作DMBOK,详细 阐述了数据资产管理的相关理论、体系 和知识。
7. DAMA数据资产管理体系 数据治理 – 对数据管理和使 用进行规划、监督和控制; 数据架构管理 –定义企业数据需 求,设计实现数据需求的蓝图; 数据质量管理 – 定义、监控 数据开发管理–设计、实施并维 制和提高数据质量; 元数据管理 – 集成、控制和 数据质 量管理 数据 架构 管理 护解决方案,实现企业数据需求 数据开 发管理 数据操作管理 – 数据库设计、 提供元数据; 文档与内容管理 – 管理数 据库之外的非结构化数据; 元数据 管理 数据 治理 数据操 作管理 文档与内容 数据管理 数据安 全管理 数据仓 库与商 业智能 参考数 据与主 数据 实施和支持; 数据安全管理 – 确保隐私、 机密性和合适的访问控制; 数据仓库和商务智能管理 – 支持报表处理和分析 数据资产管理体系图 参考数据和主数据管理 – 管理珍贵版本和复制品;
8. DAMA-数据治理是数据资产管理的核心 数据治理 = 数据资产管理的管理 = 数据资产(管理)2 数据质 量管理 数据 架构 管理 数据开 发管理 元数据 管理 数据 治理 数据操 作管理 文档与内容 数据管理 数据仓 库与商 业智能 数据安 全管理 参考数 据与主 数据 数据治理是数据资产管 理框架的核心职能  数据治理作为数据资产管理框架的核心职能,它 与其他数据资产管理职能交互并互相影响。  数据治理是对数据资产管理行使权力和控制的活 动集合(规划、监控和执行),它指导其他数据 管理职能如何执行。  数据治理是在高层次上执行数据管理制度。  数据治理,定义、审批、沟通企业高层次的数据 战略、政策、标准、架构、流程和度量体系,同 时,负责追踪并保证数据管理体系的合规性和一 致性。  它还负责发起、追踪和监控数据资产管理的可交 付成果,以及数据资产管理中的问题管理
9. DAMA数据治理关注的主要方面 专业数据管理组织成员负责管 理数据政策、标准和规程。管 理和实施数据架构,保护数据 资产和利益相关者的利益,并 提供数据服务。 数据政策是的数据治理管理初衷的 说明和基本规划;数据规范和标准 是企业由数据管理组织制定,并由 数据治理委员会评审通过的关于企 业数据的基础准则。 数据管理 组织 政策、规范 与隐标含准 数据管理制度确保对数 据资产进行有效控制和 使用的业务职责问责制 度。 数共据 制享管度理 数据管资问理源题 数据治理 识别、管理、解决企业在 日常中遇到的不同类型的 数据问题,包括质量问题, 标准问题、安全和保密问 题等等
10. 大数据时代下数据治理压力 大数据时代的业务支撑面临“运维、管理、增值”三大压力,通过数据治理,实现 数据管理的降本增效,提升能力与价值  随着信息化技术的不断深入,数据 存储将迈入EB级别。目前支撑系 统的总数据量已达到PB级别,以 每年50%的速度递增,随着数据量 的不断增长,资源投入及管理成本 也不断上升,从千万级上升到数亿 级,提升几十倍。  数据膨胀给业务支撑带来量 变到质变的后果,全球服务 器数据已每年30%的速度递 增。整个开发、架构、运维 体系都难已承载巨量的数据, 对平台支撑以及系统管理能 力带来巨大的挑战。 增值压力  数据是企业最核心的价值,面对越来越激烈竞 争,越来越多的企业开始重视对数据管理理及 运营,用以提升业务发展能力。面对巨量数据, 如何有效进行数据的保值和增值。
11. 第一部分 第二部分 第三部分 第四部分 数据治理的概念 浙江移动的数据治理计划 实施阶段成果 后续展望
12. 数据治理的战略目标 理解企业和利益相关者的数据 需求,促进数据架构被更广泛 和深入理解 有效控制数据资产管理成本, 降低数据管理和运维压力 理解 完整 获取、存储、保护和确保数据 资产的整合以及其完整性 保证数据资产的有效利用和价 值最大化,使数据资产保值和 增值。 成本 数据治理 增值 安全 质量 不断提高数据和信息的质量, 包括准确性,一致性、及时性 确保数据隐私和保密,防止数据 和信息通过不同途径未经过授权 或不恰当地被使用
13. 浙江移动IT域数据治理以数据架构为突破点  在TOGAF企业架构框架体系中,数据架构是企业架构中承上启下的核心组成部分,数据 架构为中心辐射业务和应用,推动核心掌握能力提升。  浙江移动数据治理以数据架构为主要突破口,以数据架构幅射技术架构和应用架构,重 新掌握IT系统核心能力。 业务 战略 业务 目标 业务 需求 业务 方案 业务架构 业务流程 事务… 决定 应用架构 相互影响 应用系统 服务 … 数据架构 数据模型、分布… 决定 应用 项目 性能 智能 技术架构 系统软硬件平台…
14. 浙江移动数据治理架构 根据企业架构框架理论以及国际上对数据治理经验为指引,结合浙江移动业务支撑自 身系统业务特点,对数据治理体系相关职能进行细化补充和裁剪合并,形成浙江移动数据 资产管理体系。浙江移动数据资产管理体系大致分为三个层面:数据架构规划、数据架构 设计以及数据架构运营。 数据规划 企业数据架构蓝图 企业数据架构规划 逻辑模型设计 数据质量设计 数据设计 物理模型设计 数据分布设计 数据生命周期策略设计 数据存储设计 数据流向运营 数据运营 数据模型运营 数据生命周期运营 数据质量运营 数据运维管理 数据分布运营 数据存储运营
15. 浙江移动的数据治理思路 总体目标 数据治理的总体目标是理解企业的信息需求,规范数据的生成以及使用,持续改进数据质量,保 证数据安全,最大化数据价值。通过数据资产管理可以提升核心能力掌控,加强对开发商管控力 度,提升系统开发和维护质量,减少系统建设、实施及运维等各方面对于开发商的依赖。 IT域数据治理 IT域作为浙江移动的存量系统,已经上线运行 多年,在浙江移动数据管理体系下,准备采用 从下往上的方式,逐渐掌握IT系统的数据架构  建立业务系统物理模型基线和管理规则  制定数据生命周期管理规则  厘清数据分类建立业务支撑域宏观数据视图  建立部门内数据标准,参与数据开发管理  掌控系统数据逻辑模型,掌握数据质量管理  全面打通业务-应用-数据三者关系,降低系 统开发难度和风险  进行系统架构解耦,降低系统建设的硬件和 软件投资成本 DT域数据治理 DT域作为浙江移动准备新建的增量系统, 在浙江移动的数据管理体系下,准备采用 从上往下的方式,全面掌握DT系统的数据 架构  规划企业级的大数据架构蓝图和数据规划  在浙江移动范围内优化数据标准,建立数 据与应用的关联关系,提升对数据价值的 认识,统一数据分布。健全元数据、主数 据管理,增强数据的一致性  加强数据的治理和管控工作,做好数据质 量管理、安全管理工作  建立统一的企业数据资产管理体系,构建 共享全景数据视图  完成源系统数据、数据引入直至数据建模 的三本数据字典
16. 浙江移动IT域数据资产管理的重点是重掌核心能力 “重掌核心能力”是浙江移动IT域数据治理的重点。  以数据治理以及TOGAF企业架构体系为指导,浙江移动通过以数据架构管控为中心,打开核心 系统黑盒,解耦核心数据架构,籍此幅射应用架构;进而进一步主导数据架构、应用架构和技 术架构的演进,摆脱现有的束缚,让局方重新取得核心能力掌控。  组建技术架构师团队,深 度掌控包括开源软件在内 的技术平台,打造移动自 己的私有云。  组建技术支撑团队,对现 场进行技术支持。  组建应用架构师和系统分析师团队, 完成规划应用蓝图,管控应用间接口 和针对具体的项目的总体设计,概要 设计,指导程序员开发的工作。  组建数据架构师团队,深 度介入数据模型、数据质 量等核心数据资产管理工 作,推动应用系统概念模 型逻辑模型管理工作  视情况开展企业级元数据 和主题域的管理工作
17. 浙江移动DT域数据治理的重点是构建核心能力 DT域作为浙江移动需要新建的增量系统,浙江移动要从上至下建设数据规划、数 据设计和数据运营能力,从系统建设的开始就完全掌握数据架构的核心能力。 B域 应用 M域 应用 O域 应用 外部应用 能力开放系统 大 数据 数 服务 据 平 台 数据 处理 数据服务 用户洞察 行为洞察 位置洞察 Hadoop MPP 数据交换集群 业务洞察 …… 流处理 爬虫集群 B域数据 M域数据 O域数据 外部数据 构建数据规划能力: 构建企业级数据架构 蓝图规划、元数据设 计能力 构建数据设计能力: 构建数据建模能力, 健全元数据和主数据 管理,保持数据一致 性 构建数据运营能力: 建设源数据分析,数 据引入能力,加强数 据的治理和管控工作, 做好数据质量管理、 安全管理
18. 第一部分 第二部分 第三部分 第四部分 数据治理的概念 浙江移动的数据治理计划 实施阶段成果 后续展望
19. 浙江移动IT域数据治理工作开展 结合浙江移动IT核心系统现状,浙江移动2014年度数据治理工作将重点围绕数据生命周 期管理、数据模型管理两个方面展开。 数据生命 周期管理  数据生命周期梳理  数据生命周期运营优化 数据模型 管理  物理模型梳理  逻辑模型梳理 数据流向梳理 除此以外还针对特定核心业务流程进行数据流向梳理,着重于揭示业务流程、应用以及数据模 型三者之间的联系,展现数据资产所形成的数据流如何实现业务流程,提升开发和维护质量, 提升系统核心掌控能力。
20. 浙江移动IT域数据治理工作取得主要成绩 按数据治理总体规划,浙江移动2014年数据治理项目的工作重点集中于数据生命周期管理以及物 理模型梳理两部分。第一阶段以理现状、建体系、优架构入手,阶段性成果如下: 1.核心系统现状梳理 根据运营管理室对业务支撑系统 的分类结果,项目组在业务支撑 域的27套核心系统的范围内,开 展现状梳理工作。 从提高系统处理效率,降低系统消 耗。优化客户感知角度出发,协助 开发优化完善系统的应用架构。 2.建立数据资产运营管理体系 取得 成果 项目组编写了数据资产运营的审 查标准和管理流程文档,数据生命 周期和数据资产变更管理流程已 3. 优化架构设计 经在实施。
21. IT域核心系统数据架构现状梳理 现状梳理进展:共分析27套库1G以上 的表近3000余张(占数据库使用空 间的97%以上)的数据生命周期保 存策略,有近千张表存在生命周期 保存策略问题,占总数的50%左右。 物理模型梳理进展:完成营业、账务、 计费系统的物理模型梳理,其中有 问题的疑似垃圾对象占总数50%左 右。
22. 建立IT域数据治理流程、标准和体系 管理 流程 目标:按照数据治理流程管理运营商、开发商、第三方厂家,以保证项目组 整理的数据资产基线和数据生命周期基线的结果和生产系统完全一致。数据 治理流程中还要包含下线流程,对因新系统上线或业务变化导致无用的数据 对象,要有清理流程。 重点:紧抓上线评审为关键点,对数据资产的变更发起、实施进行检查。 目标:制订并发布数据治理审查标准,以约束开发商按照标准实施新项目 和完成新业务上线。 重点:数据治理审查标准,要求开发商提供的逻辑模型设计结果中,要包 含数据表的分区分表规则,表的生成原则,表类型说明,使用说明等审查 者需要关心的元素。 数据生命周期的审查标准,要求开发商提供的逻辑实体的设计内容中,要 考虑实体分类,不同类别的实体数据生命周期保留策略不一样。 审查 标准
23. IT域数据生命周期管理降低扩容成本 通过建立多层次的数据生命周期管理体 系(包括需求管理、策略管理和技术管 理),实现系统历史数据按既定数据保 存策略的自动化或半自动化迁移,降低 单位数据的存储成本,提升系统效率。 策略实施过程中通过数据迁移清理实施,一次 性节省存储几十TB,存储费用估算约近百万元; 此后,每月定期清理数据量存储量上升到近 10TB,按年计算节省存储扩容费用估算以百万 元计。
24. IT域数据分布优化—订购和三户数据同步 存在问题 现状描述:三户资料和订购信息是CRM系统的核心数据,它的生成和维护都在CRM系统。由于这些资料的重要,整个业务支 撑系统中又由这些数据通过同步或者快照等方式生成的多份COPY或变种数据。带来如浪费资源(主机、存储、网络)、数据 一致性差、数据资产维护难度大等问题。 只读 帐务数据库 只读 计费数据库 订购资料 三户资料 只读 结算数据库 只读 综合查询 CRM数据库 快照 只读 经分主仓库 系统现状 …… 只读 客服接入库 订购资料 (快照) 三户资料 (快照) 订购资料 三户资料 快照生成 订购资料 (只读) 三户资料 (只读) 同步 CRM数据库 Readonly CRM 只读数据库 统一 查询 接口 读写分离改造示意图
25. DT域数据蓝图规划 DT域的数据蓝图规划是在元数据管理的辅助下,以浙江移动企业的角度来统一数据描述语言,分不同主 体域设计基础数据和汇总数据的逻辑模型,在基础数据和汇总数据的基础上,为应用程序在数据服务总线 上提供数据服务。 应用程序 数 据 数据服务总线 服 客户洞察 行为洞察 位置洞察 业务洞察 …… 务 元 数 据 数 参与人主 题域 服务主题域 清单汇总 信令汇总主 帐务汇总 管 主题域 题域 主题域 理 据 资源主题 处 基础 域 事件主题域 个人用户汇 汇总 总主题域 集团客户汇 总主题域 他网客户汇 总主题域 理 数据 帐务主题 营销主题 数据 产品信息汇 渠道汇总主 终端信息汇 域 域 总主题域 题域 总主题域 财务主题 域
26. DT域数据基线整理 以IT系统整理的核心系统物理模型基线为基础,以大数据营销及变现为驱动力,通过理解数据蕴含的意义,判断出这些数据的 价值,明确大数据的分布,建立大数据基线版本。 以建设数据基线为契机去建立和完善源系统数据、数据引入直至数据建模的三本数据字典,影响企业大数据蓝图规划和数据建 模,夯实大数据的工作的基础 物理模型基线 判断数据价值 大数据基线版本 数据 治理 体系 数据治理流程 数据生命周期管理 源系统数据 数据引入 数据建模
27. 第一部分 第二部分 第三部分 第四部分 数据治理的概念 浙江移动的数据治理计划 实施阶段成果 后续展望
28. 后续展望-IT域工作计划 浙江移动计划通过两年的努力,结合DAMA理论指导,在IT域建设完成浙江移动自己的 数据治理体系。 数据架构规划 企业数据架构蓝图 企业数据架构规划 逻辑模型设计 数据质量设计 数据架构设计 物理模型设计 数据分布设计 数据生命周期策略设计 数据存储设计 数据流向运营 数据架构运营 数据模型运营 数据生命周期运营 数据质量运营 数据运维管理 数据分布运营 数据存储运营 14年完成工作 15年开展工作 已经开展工作
29. 后续展望-DT域工作计划 浙江移动计划通过两年的努力,在DAMA理论指导下,在DT域建设完成浙江移动自己 的数据治理体系。 数据架构规划 企业数据架构蓝图 企业数据架构规划 逻辑模型设计 数据质量设计 数据架构设计 物理模型设计 数据分布设计 数据生命周期策略设计 数据存储设计 数据流向运营 数据架构运营 数据模型运营 数据生命周期运营 数据质量运营 数据运维管理 数据分布运营 数据存储运营 15年开展工作 16年开展工作
30. 请关注我们的团队-微信公众号:三墩IT人 招兵买马:  工资不高, 但稳定!  工作充实, 但不会过 劳死!  没有BAT 的实力, 但团队技 术氛围好!  争做传统 行业领先 地位! 扫码关注:  交流技术  了解运营 商的技术 内容  获得运营 商内部推 荐机会  拿出微信 扫一扫