数美基础架构负责人 关涛:实时大数据在风控中的实践

公西驰鸿

2017/11/14 发布于 技术 分类

本次演讲主要介绍了数美在大数据风控中的实践,重点介绍了基于大数据的实时规则引擎,大数据在线实时学习系统,实时画像引擎等,重点解决了互联网时代大数据风控面临的数据量大,反应慢,处理不及时的痛点。

文字内容
1. SACC2017
2. 实 时 大数 —— 据数SA美在C基C风础20架控1构7中负 的实践 责人 关涛
3. 大纲 背景介绍 SACC2017 面临挑战 业务分析 架构设计 经验心得
4. S背A景CC介20绍17
5. 公司背景介绍 数美致力于构建大数据反欺诈服务,让世界更加“安全、公平、美好”! SACC2017
6. 个人背景介绍 关涛 7数美技术总监、基础架构负责人 201近十年大数据基础架构相关工作 SACC北大计算机硕士
7. 项目背景介绍 主要涉及两个领域:互联网反欺诈、互联网金融风控 互联网 (直播、电商、社交、 游戏、O2O等) SACC2017 互联网金融 (信贷、理财等)
8. S面A临CC挑20战17
9. 面临挑战 业务繁杂 数据巨大 SACC2017 时效极高
10. 挑战一:业务繁杂 支撑两大行 业 金融 • 银行、P2P、消费金融、 信贷、理财等 互联网 • 电商、直播、社交、资讯、 论坛、游戏等 提供多种产 品 SACC2017金融风控 • 信贷、中介、逾期、可信 度分析 欺诈识别 • 垃圾文本识别、垃圾图片 识别 • 设备指纹、注册、登录、 薅羊毛 服务千家公 司 金融 • 中信银行、宜信、百度金 融、360借条、国美金融 等 互联网 • 小米、360、爱奇艺、 youku、斗鱼等
11. 挑战二:数据巨大 账号数量大 从业人数多 涉及行业广 风控数据大 系统请求大 画像数据大 • 黑产掌握了数十亿的账号,所衍生的黑产业年获利超百亿。 —— 2017网络安全生态峰会发布《电子商务生态安全白皮书》 SACC2017• 黑产从业人数超过150万人,市场规模高达千亿级别。——《电子商务 生态安全白皮书》 • 金融、电商、直播、论坛、社交、游戏等。——《2017黑产行业分析 报告》 • 对接千家客户风控需求,每天请求量10亿左右,涉及亿级别的设备与 账号——《2017数美业务分析报告》 • 每秒请求上万QPS,高峰期十万QPS——《2017数美系统分析报告》 • 亿级别设备、账号画像、手机号库、联系方式库、IP库——《2017数美 数据分析研究报告》
12. 挑战三:时效极高 SACC2017黑产实时变化 • 黑产实时欺诈 数美实时风控 • 业务需求及时响应 • 大量实时攻击 • 策略及时生效上线 • 黑产实时变策 • 策略实时动态调整
13. S业A务CC分20析17
14. 金融风控流程分析 SACC2017
15. 互联网风控流程分析 启动 反欺诈SDK • 虚拟机 • 篡改设备 注册 登录 SACC2017注册保护 • 机器注册 登录保护 • 撞库攻击 • 盗号登录 • 养号 业务行为 营销反作弊 垃圾图片识别 垃圾文本识别 • 垃圾广告 • 羊毛党
16. S架A构CC设20计17
17. 架构设计——设计前的分析 业务繁杂——化繁为简、灵活配置 • 化繁为简:抽象业务共同核心逻辑、集中力量解决核心问题 • 灵活配置:为各业务公司构建灵活个性化可视化配置界面 SACC2017数据巨大——系统易扩、工具平台 • 系统易扩:解决所有系统的单点问题,支持水平扩展 • 工具平台:利用成熟工具搭建大数据平台,提供各种工具支持业务大数 据分析。 时效极高——快、快、快 • 策略实时变化:高度可配置的平台、可视化实时分析与配置。 • 业务实时处理:设计实时数据流,实时沉淀画像,系统实时学习。 • 巨量实时请求:构建缓存机制、索引机制、异步机制、容错机制、自降 级机制。
18. 架构设计——核心关键 抓住核心关键,即可化繁为简 行为层次的风控:行为的判定 实时决策引擎 垃圾文本 注册保护 登录保护 薅羊毛 C2017实体层次的风控:实体的判定 SAC多次恶的行为 多种恶的行为 实时画像引擎 全方位的风控:关联的判定 各种关联的行为 各种关联的实体 数据分析平台
19. 架构设计——整体设计 用户请求接口 基础服务层: 预处理 SACC2017实时画像引擎 模型服务 联系方式服务 实时统计引擎 …基础服务 分布式画像库 (一致性hash实现水平扩容) 实时决策引擎 决策规则库 后处理 实时画像引擎 数 据 分 析 平 台
20. 实时决策引擎——灵活配置、快速决策 通用性:重要的是灵活 时•• 不不效同同性场产:品景配配重置置要不不S的同同A是的的C数规快C据则2快策流0快1略图7 • 系统的决策:实时计算实时决策 • 系统的升级:写代码 => 写规则 => 可视化配 置
21. 实时决策引擎——详细设计 用户请求接口 7数量流图计算 201实 加载 产品服务存储变量 C时 根据产品及配置的变量动态计算数据流图 AC决 S策 并发调用基础服务 可 配置 视 化 配 引 基于数据流图并发调用相关基础服务并计算相关变量 置 擎 Clips 规则引擎 加载 决策规则库 界 配置 面
22. 实时画像引擎——多环节联动联防 设备指纹 注册 设备指纹 画像数据 注册相关 画像数据 用户行为 登录 文本 图片 SACC2017实时画像引擎 登录相关 文本相关 图片相关 画像数据 画像数据 画像数据 其他… 其他相关 画像数据 实时画像
23. 实时画像引擎——实时沉淀、构建画像 决策引擎 用户请求的特征数据 SACC2017实 时 发现规则模块 加载 发现规则库 画 像 根据规则生成实体画像属性 引 擎 数据沉淀模块 配置 数据配置 根据配置决定写入的数据库 设备画像库 IP画像库 账号画像库 ……画像
24. 数据分析平台 业务分析 内容分析 • 广告、色情、涉政 行为分析 • 重复、频度 画像分析 • 静态属性、动态属性、关 联属性 系统分析 分析工具 SACC2017性能分析 • 分析各服务耗时 稳定性分析 • 分析各服务失败率 搜索 • 提供搜索工具 聚合 • 关联聚合工具 超时率分析 • 分析超时率 统计 • 统计工具
25. 数据分析平台——业务分析 构建可视化Saas平台 SACC2017
26. 数据分析平台——系统分析 ELK(ElasticSearch, Logstash, Kibana)搭建实时日志分析平台 SACC2017
27. 数据分析平台——分析工具 SACC2017 搜索与聚合 聚合与统计
28. S经A验CC心20得17
29. 经验与心得 简约设计:化繁为简 优化性能:极速体验 • 避免过度:不过早引入额外系统、额外资源 • 尽量缓存:缓存避免重复计算大大提升性能 SACC2017• 灵活可配:可以通过配置的方式实现各种变化 • 扩容简单:消灭结构性单点,可水平线性扩容 便捷运维:稳定根基 • 多数据中心:异地多活 • 设计索引:合理索引结构可提升服务性能 • 异步优化:避免同步阻塞影响线上服务性能 抓住核心:事半功倍 • 优先分析:一定要先分析清楚核心问题,再对症下药 • 熔断自降级:高压下系统各个服务自降级避免雪崩 • 不要瞎忙:无关痛痒的问题一律不做 • 多维度监控:可视化工具实时监控 • 聚焦精力:80%的精力要投入到最核心的事情上
30. STAHCACN2K0S17