王苹:荣之联大数据平台的应用实践

天空的空

2017/11/14 发布于 技术 分类

大数据在企业及行业应用越来越广泛,荣之联DataZoo是以开源Apache Hadoop为基础,结合行业特性构建的大数据平台,为企业发掘数据价值、辅助业务决策、加速数据应用落地提供可靠支撑。基于荣之联大数据平台提供端对端的大数据解决方案。目前已经广泛应用于公安、证券、电商、新媒体、车联网及生物医疗等行业。

文字内容
1. 荣之联大数S据A20C1平C7/2台1001的7 应用实践
2. 议程  荣之联大数据平台的应用案例介绍  商务中心大数据中心建设案例  证券交易日志分析案例 017 工业物联网大数据平台案例 CC2 荣之联大数据平台产品介绍 SA 产品架构及优势  产品特色功能介绍
3. 议程  荣之联大数据平台的应用案例介绍  商务中心大数据中心建设案例  证券交易日志分析案例 017 工业物联网大数据平台案例 CC2 荣之联大数据平台产品介绍 SA 产品架构及优势  产品特色功能介绍
4. 商务中心大数据中心建设需求 业务系统性能下降 业务数据 不断增长 SACC2017运算速度缓慢 系统支撑能力面临增长瓶颈 非结构化数据缺乏管理和应用
5. 商务中心大数据中心建设 超市 企业 手工上报 指数价格计算 Spark (指数价格计算) ORACLE 信息泵 SACC2017数据抽取 HDFS 分布式文件存储 之前结构 数据可视化 大数据平台
6. 客户价值  构建了大数据平台  拥有处理更大数据量、更复杂格 式、更多样化数据的能力  加速数据采集、使用和分析的时 017间,更快决策 C2 处理的数据量:一个月1-1.3亿条 SAC数据,即10-13Gb  原来的处理+计算需要5个小时, 现在需要2个半到3小时。
7. 议程  荣之联大数据平台的应用案例介绍  商务中心大数据中心建设案例  证券交易日志分析案例 017 工业物联网大数据平台案例 CC2 荣之联大数据平台产品介绍 SA 产品架构及优势  产品特色功能介绍
8. X券商交易系统现状与问题  全国22个站点  每个站点约20台左右的网上交易事务 机,共计近400台网上交易事务机  每天网上交易原始日志的日增量为 SACC201790-120G 分散在全国的各个站点和服务器的 状态如何监控?出现宕机或假死状 态时能否及时判断和处理? 面对证监会的监管要求,或者客 户的查询请求,如何对原始日志 进行快速、精确的查询? 基于历史数据的统计分析报表的 计算效率是否需要提高?
9. 券商应用日志分析系统架构 应用 实时运维监控 实时预警 明细毫秒级查询 实时报表 数据处理平台 海量数据 多维分析引擎 海量数据高并发 检索引擎 离线统计报表 实时数据流处理 引擎 数据存储管理平台 数据采集平台 数据分发与解析处理层 数据缓冲层 通达信topic SACC2017日志数据 数据字典 解析、勾对、计算、入库 恒生topic 核新topic 网络设备topic 数据汇集层 通达信汇集集群 恒生汇集集群 核新汇集集群 设备数据汇集集群 监 控 及 运 维 管 理
10. 券商应用日志分析系统 – 实时计算 消息订阅 Kafka集群 海量日志数据的缓冲 基于Spark Streaming进行解析、计算 节点,完成网上交易各个功能号日志的 解析、请求包与应答包的勾对计算,整 个解析、勾对、计算、入库时间在3-5 秒内完成。 SACC2017实时数据流处理(解析、勾对、计算) HBase集群 Kafka集群 消息订阅 存储原始的网上交易日志 内存数据库 集群 数据字典表 IP与地理位置映射表 实时预警指标阈值表 日志勾对临时表 …… 批处理 离线数据计算 多维搜索 实时指标数据的监控、预警
11. 客户价值  为信息技术部提供更完善的运维管理支持,对站点/交易 事务机的各技术指标做到实时监控,针对交易事务机的 假死、宕机、恶意攻击等异常情况做到及时有效应对, 防止影响到正常网上交易业务的正常运行。  针对资金账号的各种异常情况的实时预警,协助及时发 7现异常的资金账号,做出更加有效的管控和处理。 C201 秒级的日志查询,面对监管方的日志查询要求或客户请 SAC求,快速响应。  依托大数据技术的日志实时采集与分析平台的搭建,为 某证券公司未来实现全系统、各交易品种的日志接入和 大集中管理、基于海量数据的业务分析做了平滑的铺垫。
12. 议程  荣之联大数据平台的应用案例介绍  商务中心大数据中心建设案例  证券交易日志分析案例 017 工业物联网大数据平台案例 CC2 荣之联大数据平台产品介绍 SA 产品架构及优势  产品特色功能介绍
13. 风机数据资源现状 数据应用 数据管理 数据平台 • 数据存储分散:统计数据、 • 子系统多而独立:信息重 • 数据平台试验环境:目标 历史全量数据是云存储, 复、信息堡垒和信息孤岛 是生产环境 本地存储载荷分析相关的 等问题出现 数据 • 风资源数据分散:散落到 不同的业务系统中 SACC2017• 不能快速抓取到数据:跨 部门的业务及新业务需求 需要数据支撑时,不能快 速的抓取到所需要的数据 (风机数据,业务数据, 水务数据等等) • 改进现有的数据处理业务: 云平台存在系统安全隐患 及其他未知的风险 • 集团级统计数据慢:数周 时间才能获得集团级统计 分析数据
14. 能源物联网大数据平台搭建 数据采集与处理平台 数据采集代理 数据流处理 数据入库 SACC2017 数据存储 分布式文件存储 采用Parquet 列存储 优化存储模型 计算优化 优化数据读取性能 算法本身优化 采用数据科学开发工具
15. 客户价值  可弹性伸缩的大数据平台  数据集中存储,推动企业数字化转型  有效支撑物联网下大数据的应用 7 数据资产集中化管理,包含:数据采 201集和存储、数据查询、数据应用等 SACC 快速为管理层和业务层提供数据服务
16. 议程  荣之联大数据平台的应用案例介绍  商务中心大数据中心建设案例  证券交易日志分析案例 017 工业物联网大数据平台案例 CC2 荣之联大数据平台产品介绍 SA 产品架构及优势  产品特色功能介绍
17. 荣之联DataZoo大数据平台 SACC2017
18. 产品技术优势 完整的数据处理能力 • 新一代大数据平台,不仅仅只是 Hadoop生态的集成 • 具备数据分析生命周期各方面能力, 从数据采集、分析、挖掘到数据可 视化都有相应的组件能力 • 平台自有特色功能 丰富的行业应用模型 • 驾驶行为分析 • 碰撞分析模型 • 用户画像 • 推荐模型 • 文本分析(分词、情感分析) 01 04 SA优C0势3C200217 高性能的多维分析引擎 • 超低时延:分析结果一触即发 • 分析特性:任意维度组合分析 • 存储特性:嵌套列存储,计算过程 不加载多余数据 • 强扩展性:支持横向纵向任意扩展 • 数据时效性:实时+离线数据 便捷的开发管理工具 • 可视化管理、监控系统 • 统一的配置管理 • 从数据采集、预处理到数据分析 与挖掘的工具套件
19. 议程  荣之联大数据平台的应用案例介绍  商务中心大数据中心建设案例  证券交易日志分析案例 017 工业物联网大数据平台案例 CC2 荣之联大数据平台产品介绍 SA 产品架构及优势  产品特色功能介绍
20. 特色能力-多维搜索 • 将数据存储在HDFS之上,基于HDFS做了 磁盘与网络做了读写控速逻辑 SQL API 层 • 与Spark深度集成,Spark对检索结果集直 17接分析计算,同样场景让Spark性能加快 20百倍 SACC• 数据即可离线导入也可实时导入,索引即 高性能分布式 多维检索系统 实时数据导入 离线数据导入 HDFS分布式文件系统 时生成,通过索引高效定位到相关数据
21. 特色能力-行业模型 驾驶行为模型 用户画像 文本分析-分词 识别用户风险,改善车主驾驶行为,标签化用户模型,提供360度客户 降低车险的赔付成本。 视图。 碰撞分析模型 推荐模型 构建大量文本的切词模型,是文本 分析的基础模型。 文本分析-情感分析 通过识别事故真相减少车险的欺诈 赔款,并提供更好的理赔服务。 SACC2017基于用户的行为数据,做出精准式 营销。 基于上下文语义,语句情感模型, 应用于舆情监控、商品评估等场景。
22. 平台监控管理工具 SACC2017
23. 数据挖掘工具 SACC2017
24. 数据采集工具 SACC2017
25. 数据可视化交互工具 SACC2017
26. SACC2017