互联网金融 刘江-携程大数据风控实践携程-下载版

范姜敏丽

2017/12/08 发布于 技术 分类

作为OTA领头羊,携程每天都遭受着严酷的各种欺诈考验,比如银行卡盗刷、账号盗用、营销恶意刷单、恶意抢占资源、薅羊毛等。目前携程利用自主研发的风控系统,通过大数据风控经验积累和技术创新,已经可以全面覆盖事前、事中、事后各个环节。基于规则引擎、实时模型计算、流式处理、M/R、大数据、数据挖掘、机器学习等先进技术,携程拥有实时、准实时的风险决策和批量处理功能,能有效控制各类风险,从而为客户交易安全和良好体验保驾护航。本次分享将重点介绍携程Aegis系统、Chloro行为分析系统、Rsession、大数据风控模型、风险画像和特征工程等风险管理方面的系统及实践。

文字内容
1. 携程基于大数据分析的实时风控体系 介绍 携程 刘江
2. ontents 1 我们的挑战 2 Aegis系统架构 3 核心模块介绍 4 风控模型和策略
3. 0 风险管理是一种文化 Part  携程文化:让旅游变得更幸福  风险管理文化: “Make the Travel More Freely and Securely”
4. 1 我们的挑战 Part  业务类型和数据量增长  需要更加自动化和智能化  用好设备和行为数据  跨海外网络的数据延迟
5. 2 Aegis Part 版本演进历史 老系统 3.0 3.1 3.5 2011年 自建风控系统 .Net+SqlServer 2015年 Java版上线 实时流量服务上线 吞吐量增加10x 效率提升10x 全业务切入 2016年 Aegis系统上线 分布式并行计算 实时处理用户行为数 据交易关联排查 2017年 设备指纹 同步执行复杂模型 新的规则引擎 新的变量引擎 XMAN
6. 2 Aegis Part 运行框架
7. 2 Aegis Part 系统架构图
8. 2 Aegis Part 数据采集框架 数据贴源层 业务数据仓库 风控引擎 审核中心 案件中心 数据采集层 实时数据流 ETL 数据计算层 实时数据计算平台 离线数据集市 数据使用层 规则引擎 决策模型 变量工场 外部客户数据 合作伙伴数据 社交数据 外部账户数据 基础数据采集 外部数据采集 元数据中心 数据健康度管理 运营平台 数据产品 数据质量/数据监控/数据建模/数据优化/数据调度 服务能力 千台集群 P级存储 上万变量 99.9%稳定 性
9. Aegis 一笔支付请求的背后 实时  黑白名单  数据预处理 / 变量衍生 ~ 1000-2000个  执行规则 ~ 400条+  执行模型 ~ 5-10个  结果计算及后处理 异步 … …
10. Aegis 性能和稳定性  日亿级交易处理能力  支付风控平均处理时长小于150ms,99.9%线600ms  支持DR灾备,数据分级存储,7×24H监控&预警  通用性强:  支持支付风控、业务风控、外部合作伙伴风控支持
11. 3 Aegis核心服务和模块 Part 实时流量 规则引擎 模型执行器 变量服务 用户画像 设备指纹 $ 行为分析
12. Aegis 规则引擎 Rule Engine 规则分布式并行执行 支持按业务分组 支持动态调整分组和 扩容 基于Java,高吞吐量、 低延迟 使用gRPC互联
13. Aegis 模型执行引擎 特点 性能 Python 标准、开源, 兼容性好 10-100ms, 因需要独立部署,有网络 开销 JPMML 标准、开源, 兼容性好。 自主研发 使用Java解析并执行.dot模型文件, 支持随即森林和逻辑回归算法,算 法可扩展 性能和Python执行.dot接 近,只是可以嵌入式运 行,所以稳定性比 Python高 0-10ms, 嵌入式执行,性能高,稳定性高 特性:  使用Java完全自主实现的dot模型执行器,执行耗时只有 Python版本的10%  拥有完善的模型运行监控和熔断机制
14. Aegis 审核自动提示
15. Aegis 实时流量服务 Counter 日查询量超100亿次 支持分钟、小时、日、月等 多级精度,支持动态配置 支持3个月以上的超大时间 窗口 流量数据实时推送,1秒级 延迟 适用于限额限次、Velocity 变量和Ratio变量的实时计算
16. Aegis 设备指纹
17. Aegis 实时用户行为分析
18. Aegis 交易关联排查 订单/交 易 人 卡 设备 账号 Graph 基于交易、人、设备、 卡、账号等多个维度的 大数据关联分析,确定 关联交易。 数据用于规则、模型、 和人工案件排查 基于HBase自主实现的 Graph存储,50亿+交易 数据,1秒级返回关联 结果
19. Aegis 交易关联排查
20. 4 风控模型和策略 Part 模型 OR 规则  模型规则化  规则模型化
21. 4 风控模型和策略 Part 酒店 机票 设备 指纹 批量 注册 Xma n 邮箱 异常 设备 指纹 姓名 国籍 声纹识 别 Big Machine Data Learning Deep Learning
22. 风控模型和策略 海量交易数据信号衍生 电话 卡信息 位置 账户 支付账户 电子邮箱 多维度关联刻画用户行 为 设备指纹 IP 衍生方法 基础衍生 刻画pattern 高金额、快速起飞/入住等 冲突变量 信息不一致,例如发卡国和Ip国 Recency 账户年龄,最近一次交易 velocity(单、双主体) 频繁交易\换卡等 过滤条件velocity 频繁高危行为 ratio 高危行为占比,短期交易集中 个体异常 个体行为发生变化/异常 群体异常 行为相对于同地域人群异常 躲闪行为 行为有躲避风控规则的嫌疑 跳跃行为 小额试卡的行为 risktable 历史案件信息的利用
23. 风控模型和策略 特征工程 单人游 家庭游 好友游 情侣游 •下单和起飞时间之间的天数 •手机和ID与ADcity是否冲突 •保费,订单金额 •常旅客卡 •订单金额 •往返航班 •航班类型 •国内国外游 •持卡人非出行人 •是否同省 5.0% 2.2%11.2% 3% 20.1% 56.9% 国内因公 单人游 家庭游
24. 风控模型和策略 文本信号挖掘 文本处理 分词 词性标注 文本 去字尾 过滤 N元组语义 分析 NLP/文本分析技术 语音识别 • 声波数据预处理 − 音频采样 − 分解频带 − 傅立叶变换创建识别码 • RNN识别音频片段字符 • 文本数据对深度学习发音 预测矫正: 词汇库 • 开发词/词组库,并关联到 相关主题和目标 • 考虑同义/下位词 • 使用: − 对特定目标识别问题焦 点 − 为模型特征工程做预备 实体识别 • 识别特殊实体类别,如人 名,地点,时间,问题类 别,关键名词 • 使用: − 识别特定种类实体 − 对特定实体对相关词组 分组 基于文本模型 • 统计分析对特定目标字词 的相关性 • 根据标签的可用性应用业 界最新的无监督或有监督 算法 • 使用: − 模型特征库萃取
25. 风控模型和策略 字母生成概率 变量注释 变量名 26个字母+10个数字+特殊字符频率 freq_ 域名欺诈率 domain_degree 名字模式欺诈率 name_degree 正常名字模式生成可能概率 name_probability 名字复杂度 num_change 名字长度 length 生成概率(数字转移数字概率不为 prob_prefix_num_no_1 1) 生成概率(数字转移数字概率为1)prob_prefix_num_1 生成概率(只有字母) prob_prefix_alp 原 始 数据去重 建 模 提取特征值 train 数 数 data 据 据 原 始 数据去重 测 试 提取特征值 test 数 数 data 据 据
26. 风控模型和策略 模型工厂 数据源获取 平台加工 信号侦测& 预测分析 数据管理和集成 应用 评估 基本原理 项目状态 项目状态 项目状态 项目状态 项目状态 • 传统数据库 • 变量衍生和特征 +NoSQL保证ETL 工程 速度 • 深度学习及机器 • 使用携程独创 学习算法处理非 Ageis系统高效获 结构化数据 取和存储建模所 需数据 • 支持快速开发定 • 多重数据仓库集 • 自动生成各产线 制特定算法 成 模型报警 • 线上自适应调整 • 密切监测模型运 • 实时/离线模型表 模型参数 行情况 现业务监控报表 • 快速部署支持数 亿交易量的业务 • 实时查看模型变 量和模型评分分 布 初始 中间 完工
27. 风控模型和策略 模型生命周期 模型优化 生产系统 模型部署 数 数据仓库 据 集 成 ETL 模型监控 模型调整 建模数据 衍生变量 抽样 其它数据源 数据准备 模型评估 奇异值分析 分箱 模 型 模型训练 开 变形转换 发 稀疏格式转 换
28. 风控模型和策略 基于统计分析&机器学习的欺诈策略 欺诈交易识别分二步: 1. 欺诈特征生成;2. 机器学习模式识别 欺诈特征  Velocity – E.g. 2 连续交 易发生在很多时间内  Distance to home – E.g 持卡人地理位置和常 用地址距离很大 HoCmoempromise DistribuTtreadns 模型 & 评分  利用传统模型方法如逻辑回归,神经网络,矩阵 因子分解,K最近邻法等 – Matrix Factorization – Random Forest High Risk Low Risk  Transaction time – E.g. 发生在临晨的交易欺 诈率高  Etc – KNN
29. 5 风险管理五大误区 Part 技术化 not 简单化 自动化 not 排他化 智能化 not 掉包化 多样化 not 单一化 战略化 not 短期化
30. 5 Aegis Part 我们正在做 提供SAAS服务 提供风控服务和设备指纹服务 欧洲数据中心 更好的服务于海外合作伙伴 技术迭代升级
31. 谢谢