宜人贷数据科学家王婷——金融反欺诈场景下的Spark实践

娄怀山

2017/11/14 发布于 技术 分类

宜人贷数据科学家王婷分享了主题为《金融反欺诈场景下的Spark实践》演讲。王婷首先介绍了金融科技企业所面临的欺诈风险,包括用户还款能力、伪冒申请和欺诈交易等,传统方法在解决这类问题时往往效率低下。她认为反欺诈也是一种机器学习过程。宜信基于海量数据构建了金融知识图谱——FinGraph,具有应用场景、系统支持、数据整合三个层面。王婷重点讲解了反欺诈场景下Spark三板斧:Spark Streaming用SDK实时数据处理;Spark GraphX用于图挖掘特征工程和挖掘欺诈组团;Spark Mllib用于特征工程、简单机器学习训练。王婷重点讲解了宜人贷开发的基于Spark架构的实时反欺诈平台,包括用户层、工具层、模型层、数据处理层、存储层和数据层,通过对不同事件得出实时欺诈评分。此外,宜人贷还通过引入反欺诈调查员,结合图谱挖掘,提升反馈效率,快速发现欺诈团伙。

文字内容
1. 金融反欺诈场景下的Spark实践 王婷 数据科学家 宜人贷 2017-05-19
2. 个人简介 § 计算机专业PH.D. § 近5年从事数据挖掘、⼤规模社交⺴络 分析、社会计算、知识图谱等机器学 习算法实践⼯作 § 现任宜⼈贷数据科学家,从事反欺诈 建模和创新技术⾃动化⻛控系统,已 成功申请2项反欺诈技术专利
3. 金融反欺诈场景下的Spark实践 1 ⾦融科技企业⾯临的欺诈⻛险 2 在线反欺诈中的Spark算法实践 3 基于Spark架构的实时反欺诈平台
4. 金融反欺诈场景下的Spark实践 1 ⾦融科技企业⾯临的欺诈⻛险 2 在线反欺诈中的Spark算法实践 3 基于Spark架构的实时反欺诈平台
5. 金融与科技的结晶 • ⾦融的本质:资源的最合理化应⽤ • 互联⺴技术:交易的边界成本趋向“零” • ⾦融科技(FinTech):通过技术⼿段推动⾦融创新,形成对⾦融市场、机 构及⾦融服务产⽣重⼤影响的业务模式、技术应⽤以及流程和产品 , T 50+ PII
6. 金融科技-个人对个人的信用贷款
7. 宜人贷:极速信任-自动化信用评估
8. 金融科技企业面临的欺诈风险 ⻛险 遇到的问题 业界通常解决⽅法 业界的⽅法为什么⽆效 信⽤⻛险 还款能力 收集收入水平、消费 水平、负债情况等对 用户进行风险评分 无权威数据、数据收集 难度大、传统评分卡有 效特征挖掘难度大 欺诈⻛险 伪冒申请和 欺诈交易 人工审查、信用黑名 单、基于规则 人工效率低、无权威黑 名单、无法自动发现异 常、欺诈手段更新快 ⼈群团体化 ⽅式多样化 地区集中化 ⼯具智能化
9. 金融反欺诈场景下的Spark实践 1 ⾦融科技企业⾯临的欺诈⻛险 2 在线反欺诈中的Spark算法实践 3 基于Spark架构的实时反欺诈平台
10. 反欺诈也是一种机器学习过程 § Y⺫标: Benchmark选取 ‒ 好、坏⽤户定义 ‒ 训练、测试和跨时间验证样本 § X变量:特征⼯程 ‒ ⼈⼯特征⼯程 ‒ 图谱特征挖掘技术 ü 知识图谱技术 ü 图挖掘技术 信⽤ 消费 通讯 社交 ⾏为 ⻛险控制数据⾦字塔
11. 构建金融知识图谱:FinGraph § 10种实体 ‒ 电话、⾝份证、银⾏卡、信⽤卡、IP、 设备号、地理位置等 § 约2.6亿节点 § 约10亿边关系 FinGraph 平台系统 知识图谱体系 应用场景层面 智能搜索、反欺诈、贷后管理、营销分析、运营支撑 等 系统支持层面 特征工程、模型开发、异常监控、推荐系统 等 Spark+Hadoop+GraphX+Mllib+Streaming+TensorFlow 数据整合层面 信用数据、金融消费数据、行为数据、社交数据、 网络安全、第三方数据 等 图数据库neo4j
12. 反欺诈场景下Spark三板斧 Spark Streaming Spark GraphX • 流式数据处理 • 业务:SDK实时数据处理 • 算法:PageRank、LPA • 业务:图挖掘特征⼯程、挖掘欺诈组团 § 反欺诈分析案例:借款⽤户通信社交⺴络 与欺诈⻛险 ‒ 结论:PageRank⾼分段⽤户的坏账率是 低分段⽤户的3.3倍 3.3倍 Spark Mllib • 算法:LR、RF、Kmeans、LDA • 业务:特征⼯程、简单机器学习训练
13. 反欺诈建模中的数据科学
14. 金融反欺诈场景下的Spark实践 1 ⾦融科技企业⾯临的欺诈⻛险 2 在线反欺诈中的Spark算法实践 3 基于Spark架构的实时反欺诈平台
15. 对不同事件得出实时欺诈评分 44 73 57 61 85 92 设备激活 PHONE:18612586949 NAME: Mike ADRESS: Chaoyang, Beijing IP: 123.89.21.10 IMEI: 447769804451095 Mac: 00-80-C2-00-00-1A OS:android 4.3 Model: Oppo R7 …….. 注册账户 查看新手 点击贷款 引导 点击提交 初审 退出申请
16. 通过SDK采集欺诈事件 设备数据 ü ⼿机品牌 ü ⼿机型号 ü 操作系统 ü 本机号码 ü 设备ID ü App安装列表 ⾏为数据 ü 账号登录 ü ⻚⾯进⼊ ü 按钮点击 ü 信息输⼊ ü ⼲告浏览 ü 操作时间 位置数据 ü GPS ü IP
17. 反欺诈平台架构 反欺诈组调查⼈员 ⽤户层 进件⽤户数据 (⾏为数据、设备数据、资格数据等) 预警⽤户 ⼯具层 反 欺 诈 ⼯ 提报终审⽤户 评分模型/规则引擎 事件、团伙引擎 (知识图谱) 模型层 具 平 台 Impala Map Reduce Spark Streaming 数据处理层 Kafka SDK数据流 Neo4j/HDFS/Hbase/Mysql/Redis 消费数据 通信数据 ... 存储层 数据层
18. 反欺诈平台工作流程 进件设备 SDK Spark Streaming 流式处理 ⽤户申请借款 规则 集合 数据处理 规则触碰 算法模型 评分等级 FICO评分校准 < 欺诈阈值 预警⽤户 反欺诈 调查组 信⽤特征 消费特征 通讯特征 …… ⾏为特征 欺诈特征 欺诈⽤户
19. 引入反欺诈调查员提升反馈效率 Ø 利于实时新增欺诈标注,快速反馈回模型训练(6个⽉->1天) Ø 结合图谱挖掘,利于快速发现欺诈团伙 认定 欺诈 认定 欺诈 • 根据调查认定的欺诈⽤户,寻 找联系紧密的⽤户团体
20. 用一手行为数据和图谱信息创造商业价值 挑战: 初步历史⾏为数据分析体现了 显著的欺诈区分能⼒。怎样实 时捕捉,上传,处理,和分析 ⾏为数据? 挑战: 申请⾏为的数据量⼤,纬度多 ,实时性要求⾼。怎样储存, 关联,挖掘,查询数据中的欺 诈倾向? 解决⽅案: • ⼀⾏代码 埋点SDK • ⾃动实时/准实时上传⽤户⾏ 为 • Flume+Kafka实时处理分析 解决⽅案: • Spark Streaming 流式处理 • HBase KV 查询输出 • Neo4j 集群 关联、存储、挖 掘 挑战: 反欺诈调研时效性差,需要实 时⾃动提报疑似欺诈案例,及 时发现欺诈事件/团伙,来主动 拦截? 解决⽅案: • Go做为⾼效开发和运⾏基础 • Python连接⾃动提报后台 • SKLearn、GBDT、 事件识别 • Cypher图谱关系挖掘 SDK数据 采集 知识图谱 反欺诈 平台
21. Thank You!