陈天健 基于联邦学习新技术连接数据孤岛

文字内容
1. 基于联邦学习新技术连接数据孤岛 陈天健 微众银行 人工智能部 副总经理
4. 陈天健 专家工程师 • 现任微众银行人工智能部副总经理 • 前百度金融首席架构师 • 前百度主任架构师 T10
5. • 什么是联邦学习 • 联邦学习的工业实践 • 联邦学习生态及相关开源项目
6. 什么是联邦学习?
8. 国内数据监管法律体系研究 国家法律 全国人民代表大会常务委员会 关于加强网络信息保护的决定 刑法修正案(九) 2009.01.28 中华人民共和国 网络安全法 行政法规 部门规章 数据安全管理办法 (征求意见稿) 严格化 2018.03.17 2018.07.12 2018.08.31 2012.12.28 刑法修正案(七) 2015.08.29 2016.11.07 科学数据管理办法 国家健康医疗大数据标准、 安全和服务管理办法(试行) 2019.05.28 中华人民共和国 电子商务法 全面化 严格化:数据控制方责任明确,刑罚到自然人 全面化:各领域数据管理细则密集出台,用户授权+监管部门审批 6
9. 2017 年 Google 发表 Federated Learning H. Brendan McMahan et al Bonawitz K, Ivanov V, Kreuter B, et al. Communication-Efficient Learning of Deep Networks from Decentralized Data Practical secure aggregation for privacy-preserving machine learning Google, 2017 Google, 2017 7
10. 纵向联邦学习 样 本 联邦迁移学习 数据A 联邦迁移学习 数据B 标签 特征 数据B 横向联邦学习 样 本 样 本 数据A 特征 数据A 数据B 特征 标签 标签
11. 联邦学习的工业实践
12. 联邦学习技术加速大数据合作生态构建 Sub-Model A Sub-Model B ✓ ✓ FTL Agent A Model Parameter Exchange 互联网+银行 联合信贷风控建模 银行+监管 联合反洗钱建模 案例召回率提升15% 人工审批效率提升 50% ✓ ✓ 互联网+零售 联合客户价值建模 互联网+保险 联合权益定价建模 FTL Agent B ✓ ✓ ✓ 数据合作壁垒降低 模型效果提升7% ✓ ✓ 定价准确率大幅提升 解决新客覆盖问题 个性化定价覆盖率超90% 营销效率提升25% 库存去化周期降低 10 Encrypted Sample Alignment Database A Database B MPC + HE Qiang Yang, Yang Liu, Tianjian Chen, and Yongxin Tong. 2018. Federated Learning. Communications of The CCF,14, 11 (2018), 49–55 特性 联邦迁移学习 差分隐私 可信沙箱 数据出库 不出库 出库 出库 模型精度 无损 有损 无损 样本容量 无限制 无限制 有限制 开放生态 开放开源 私有项目 第三方运营 3
13. UC1:保险业的个性化定价难题 保险公司理想的数据集 消费 数据 承保 数据 理赔 数据 车联网 数据 社交 数据 互联网 数据 业务 数据 保险公司骨感的现实 承保 数据 搜索 数据 位置 数据 金融 数据 理财 消费 数据 安全 理赔 数据 数据覆盖全面 • ID高匹配 • 全运营商全地域覆盖 搜索 数据 位置 数据 金融 数据 理财 安全 征信 征信 精准个性化用户画像 • 几百维丰富画像 • 多方数据 互联网 数据 业务 数据 车联网 数据 社交 数据 对客户缺乏全面了解 • 只有10~20维 • 通常只有交易数据 数据分布倾斜严重 • 有重复表现的客户小于10% • 新客通常没有相关数据 4
14. UC1: 基于联邦学习的保险定价 通过对年龄、职业、年租车次数等标签属性进行联邦学习建模,预测出险概率,决策是否出险 直接承保人 互联网企业 X1 ID 年龄 U1 30 U2 U3 X2 ID 年租车次数 金融 U1 1 0.11 30 销售 U2 5 0.85 30 医生 U3 2 0.15 职业 客户识别号 客户识别号 1 Billion 人口属性 兴趣爱好 X3 Y 出险概率 U4 55 金融 U4 1 0.89 U9 50 金融 U5 1 0.81 U10 30 司机 U6 5 0.90 U11 20 学生 U7 1 0.93 教育信息 财务状况 200维度 30维度 车辆信息 3 Million 订单信息 业务表现 5
15. UC1: 联邦学习解决方案效果 92% 收入& 利润 10% 2018-12 2019-01 2019-02 联邦学习-收入 保险权益个性化定价占比提升8倍 注: 个性化定价占比 = 个性化定价订单量 / 总体订单量 联邦学习-利润 2019-03 传统方式-收入 2019-04 2019-05 传统方式-利润 利润提升1.5倍 6
16. UC2:小微企业信贷的风险管理难题 银行理想的数据集 上下 游 银行骨感的现实 上下 游 行政 行政 税务 工商 税务 工商 央行征 信报告 央行征 信报告 财务 财务 舆情 声誉 司法 无形 资产 全面的企业及其控制人相关数据 舆情 声誉 司法 对客户缺乏全面了解 • 通常只有央行信用报告 无形 资产 数据分布倾斜严重 • 有重复表现的客户小于10% • 70%客户无任何信用表现 7
17. UC2: 基于联邦学习的企业风控模型 通过发票数据、央行征信分等标签属性进行联合建模,预测小微企业信贷逾期概率 微众银行 合作企业 X1 ID 近3个月开票金额 U1 90 U2 U3 X2 ID 央行征信分 150 U1 600 0.79 40 100 U2 550 0.11 20 80 U3 520 0.88 近6个月开票金额 纳税人识别号 纳税人识别号 60 Million X3 Y 逾期概率 U4 100 200 U4 600 0.15 U9 50 50 U5 600 0.90 U10 6 10 U6 520 0.81 U11 2 5 U7 600 0.32 发票数据衍生变量 200 维度 20 维度 税务属性 400 K 金融属性 业务表现 8
18. UC2:联邦学习解决方案效果 0.72 AUC vs 贷款不良率 0.8 0.64 0.06 0.7 0.05 0.6 0.04 0.5 0.4 0.03 0.3 0.02 0.2 0.01 0.1 小微企风控模型区分度提升12%(AUC) 0 0 AUC 贷款不良率 注:AUC是衡量模型区分好坏样本的评估标准之一。AUC越接近0.5,模型预测结果越随机;AUC越接近1.0,模型预测结果越准确。 9
19. 联邦学习生态及相关开源项目
20. 遇见FATE 愿景 • 工业级别联邦学习系统 • 有效帮助多个机构在符合数据安全和政府法规前提下,进行数据使用和联合建模 设计原则 • 支持多种主流算法:为机器学习、深度学习、迁移学习提供高性能联邦学习机制 • 支持多种多方安全计算协议:同态加密、秘密共享、哈希散列等 • 友好的跨域交互信息管理方案,解决了联邦学习信息安全审计难的问题 首次发布 2019年1月份,FATE宣布对外开源 Github:https://github.com/WeBankFinTech/FATE 18
21. 里程碑 19
22. 技术架构总览 FATE-Board FATE-Serving FATE Workflow Sample Alignment Multi-type API Federated Feature Engineering Online Inference Federated Model Trainig/Inference Manager Platform Suite Task Manager Monitor & Alarm Model Manager Control Center Model Publish Workflow Lifecycle Manager Log Manager FATE FederatedML Functions Federated Network Cross-Site Networking EggRoll: Distributed Computing & Storage Device Data Data Access HIVE Level DB MySQL HBASE Data Adapter Amazon S3 HDFS CPU Clusters GPU Clusters CSV …… Andriod / IOS 20
23. FATE FederatedML Functions Algorithms ML Operator Secure Intersection Secure Federated Feature Engineering Federated Aggregator Activation Numeric Operator Add MPC Protocol Homomorphic Encryption Eggroll & Federation API Map Sub Regulation MUL DIV Secret-Sharing MapPartitions MapValues Secure LR Secure Boost Secure DNN/CNN Loss Optimizer Gradient Comparison Oblivious Transfer Reduce AND OR Garbled Circuit Join Remote Secure FTL Hessian Scalar Product RSA Get 21
24. 一方部署网络拓扑-示例 22
25. 目前 FATE 项目中算法&案例 • Secure Intersection for Sample Alignment • Vertical-Split Feature Space Federated Feature Engineering • Secure Feature Binning • Secure Feature Selection • Secure Feature Correlation(Coming Soon) • Vertical-Split Feature Space Federated Learning • Secure Logistic Regression • Secure Boosting Tree • Secure DNN/CNN(Coming Soon) • Horizontal-Split Sample Space Federated Learning • Secure Logistic Regression • Secure Boosting Tree(Coming Soon) • Secure DNN/CNN(Coming Soon) • Secure Federated Transfer Learning 23
26. 一站式联合建模Pipeline 开发环境 联邦统计 联邦 特征工程 生产环境 联邦 模型训练 deploy 联邦 在线推理 ✓ 联邦LR ✓ 基于联邦交集计 算的样本对齐 ✓ 联邦特征分箱 ✓ 联邦相关系数 ✓ 联邦特征选择 ✓ 联邦IV值 ✓ 联Secureboost FATE-Serving ✓ 联邦DNN 模型管理 ✓ 联邦模型选择 多方安全计算协议 同态加密 Secret-Sharing Oblivious Transfer RSA 哈希 24
27. 如果想开发新的联邦学习算法呢?
28. 开发流程 选择一个机器学习算法, 设计多方安全计算协议 定义多方交互的数据变量 构建算法执行工作流 基于EggRoll & Federation Api 实现算 法工作流中各个功能组 件 26
29. WorkFlow Example • 工作流 • 定义联邦算法组件执行工作流 • 组件 • 参数初始化组件, • 数据加载和转换组件 • 训练、预测组件 • 评估组件 • 模型保存组件 • ……. 27
30. FederatedML Functions Example • 纵向LR梯度一方分布式计算 • 定义梯度和损失计算公式 • 设计算法并行方式 • 通过Eggroll API 实现分布式 梯度聚合和损失计算 28
31. Federation API Example • 纵向LR梯度两方联合 • 定义算法交互信息-梯度(json 配置文件,数据源和目的地) • 生成梯度交互信息唯一标识符 • Federation API 完成梯度交互信息的收发 29
32. 更多资源请访问FedAI官网 https://FedAI.org/