打造金融级智能中台的数据底座 王志勇

Razor

2019/10/19 发布于 技术 分类

文字内容
1. 打造金融级智能中台的数据底座 太岳(王志勇)
2. 自我介绍
3. 小问题 • 某YC的创业团队,声称可以利用1/1000的数据就可以 进行深度学习训练,是否值得投资? • AI浪潮下,工程开发人员的思维方式是否要改变? • 工作8年以上的请举手
4. 自我介绍 王志勇(太岳),07年加入阿里,先后支持过中国雅虎、口碑、支付宝的业 务研发,目前负责蚂蚁进入人工智能团队的主要中台产品研发,包括搜索平 台、金融视觉平台、标注平台以及赋能外部金融公司的推荐平台等。
5. 目录 1. 2. 3. 4. 5. 6. 金融智能的应用场景 数据底座的背景分析 高效:用AI解决AI的问题 高质:流程与工具并用 安全:金融的底线 总结
6. AI在蚂蚁的应用场景 智能风控 基于深度学习的风险识别与防控 智能理财 02 个性化智能营销决策 提升业务运营效率 — — 金融大脑 — — — 基于数据隐私加密共享 学习的联合放贷 05 智能营销 — 06 基于金融大数据提供智能 理财策略分析和决策建议 智能信贷 01 03 智能保险 智能保险定价、定损、理 赔,线上自动化流程管理 04 智能客服与助理 一站式金融场景机器人 智能业务决策和执行助理
7. 蚂蚁AI能力大图 …… 行业 & 场景 智能风控 智能营销 智能保险 机器人平台 智能客服助理 智能信贷 金融信息服务 …… 生物识别 金融视觉平台 金融知识图谱&NLP 金融算法 金融大脑 智能理财 (AutoML ,图推理,隐私保护共享学习,运筹优化,无监督学习,在线学习,强化学习,模型可解释) 计算 数据
8. 蚂蚁保险-让更多人享受有保障的生活 多收多保 相互宝 • 2500万 小商户 • 半年超过 5000万 用户 • 日均 1万笔 理赔 • 1000万 老年用户
9. 理赔宝背后的智能 用户上传 理赔信息 • • • • 图像识别 实体抽取 实体匹配 感知 NLP&知识图谱 图像分类:区别病历、发票、证明等 OCR:支持文字、图章识别 反欺诈:识别PS图片等 数十个图像模型多链路融合决策 • 健康知识图谱:医院、疾病、科室、手 术、保险产品等实体关联 • 亿级节点和边在线实时融合推理 金融视觉平台 Computer vision 金融知识图谱平台 Financial knowledge graph u 对比传统流程核赔效率提升5倍以上 系统智能核赔 决策算法策略 Algorithmic decision
10. 目录 1. 2. 3. 4. 5. 6. 金融智能的应用场景 数据底座的背景分析 高效:用AI解决AI的问题 高质:流程与工具并用 安全:金融的底线 总结
11. 智能中台的简略框架 数据研发 算法研发 模 型 研 发 平 台 底 层 技 术 数据清洗 数据标注 智能标注平台 模型训练 金融视觉平台 计算 ASDI、ODPS、Kepler 模型部署 模型服务 知识图谱&NLP平台 数据底座(存储、标注、分析等) 存储 ODPS、OSS、Hbase、 RDS、CEPH 工程研发 … 工程底座(训练、评测、发布等) OLAP Explorer、ES 调度 ASWF、DataOS 训练&算法 ALPS 搜索 Ha3、ES
12. 为什么数据底座很重要 • 数据处理贯穿模型迭代的始终 • 数据和特征决定了机器学习的上限 • 数据安全是金融行业生命线 来源:Stanford机器学习公开课,36氪研究院
13. 金融智能的数据底座挑战 效率 • 存储分散,多次拷贝 • 滥用批处理 • 标注效率低 质量 • 标注质量 • 数据快速refine 安全 • 标注安全 • 训练安全
14. 目录 1. 金融智能的应用场景 2. 数据底座的背景分析 3. 高效:用AI解决AI的问题 数据流转 智能标注 4. 高质:流程与工具并用 5. 安全:金融的底线 6. 总结
15. 数据流转:打通数据闭环,提升流转效率 清洗过滤 数据采集 统一存储 模型预标 标注 数据预处理 模型发布 业务场景 数据选择 训练/评估 验收 数据标注 数据切分 模型 规则校验 模型训练 统一格式 检查 业务数据 映射 数据转换 统一分析 统一编码 业务校验
16. 数据流转:基于one ID的数据复用 原始数据 标注数据 样本数据 Mark result1 模型数据 snapshot1 op1:uuid1'>op1:uuid1:v1 n:n uuid1:v1 op1:uuid1'>op1:uuid1:v2 model1:v1 DataSet1 Reporter condition op1:uuid2:v1 uuid1:v2 snapshot2 Mark result2 op2:uuid1'>op2:uuid1:v1 uuid2:v1 model2:v1 Predict result model1:v2 DataSet2 op2:uuid1'>op2:uuid1:v2 op2:uuid2:v1 应用效果数据 沉淀成资产, 提供快速查找 能力 snapshot3 快照数据 复用为预 标注结果
17. 智能标注:模型市场赋能标注 标注 工具 样本 移动标注 主动学习 模型管理 模型发布 统一网关 服务监控 PC标注 数据增强 算法 平台 预标注 视频类 图像平台 NLP平台 智能辅标工具 图像类 … 机器人 文本类 LK光流法 Polyrnn++ 分词 物体检测 maskrnn 实体推荐 透视矩阵变换 OCR 。。。 自 训 练 模 型 通 用 模 型
18. 数据选择:通过主动学习节省90%的标注量 • 主动学习(Active Learning )是一个迭代过 程,不断选择对当前模型效果提升最有效的样 本,优先进行标注 • 分类宝case:约10%的样本达到所有数据的 训练效果 • 能力集成到数据底座,包括基于信息熵的通用 选择和算法自定义选择。 橙色:主动学习 蓝色:随机 绿色:所有
19. 数据增强:解决样本少或者不均衡的问题 1. 复制、翻转、剪切、缩放 2. 高斯噪声、高斯模糊… 3. SMOTE、GAN 例如Image Smote在具体业务 场景上带来3-5%效果提升 总样本数 1.couting 2.enlarge A:x A:x*N B:y B:y*N C:z C:z*N Image Smote 3.Extract k and gen noise 分别抽取K条计 算其均值和方 差,生成噪声并 叠加到采样数据
20. 智能辅标工具 • AntLable 支持视频、图像、语音、文字、地图等内容标注; • 很多业务场景带来数倍的效率提升; • 大部分实现基于前端算法,计划开源
21. 智能辅标:倾斜校正、自动贴合+OCR
22. 智能辅标:图像自动分割
23. 智能辅标:视频人物跟踪
24. 智能辅标:视频图像对齐
25. 目录 1. 2. 3. 4. 5. 6. 金融智能的应用场景 数据底座的背景分析 高效:用AI解决AI的问题 高质:流程与工具并用 安全:金融的底线 总结
26. 标注质量:基于数据指标的流程管控体系 驳回 驳回 工 作 流 工 具 数 据 标注 雷题 样本数据 检查 投票 指标数据 多维分析 refine 验收 规则校验 模型数据 引 擎 UDF 流程引擎 训练 机器人 监控预警 分析引擎
27. 标注质量报表
28. 样本分析
29. 模型效果报表
30. 目录 1. 2. 3. 4. 5. 6. 金融智能的应用场景 数据底座的背景分析 高效:用AI解决AI的问题 精准:流程与工具并用 安全:金融的底线 总结
31. 安全要求和解决思路 文件管控 访问控制 加密 不落库 分割 鉴权 脱敏 频次 水印 时效 安全存储 拒绝人员查看 。。。
32. 安全标注:不落数据标后即焚 标注员 标注后端 开始 标注前端 安全标注SDK 业务系统 标注页 Token、 请求信息 标注 标注员 密钥 访问控制 解析结果 数据加密 展示 读取内容
33. 安全标注:分割标注 • 语音、文本、图片 • 最小化分割 • 数据脱敏sdk 片段1.1 标注任务包1 片段1.2 标注任务包2 原始数据 数据分割 标注结果合并 片段2.1 标注任务包3 片段2.2 敏感信息识别 脱敏处理 标注任务包n 片段n.m
34. 安全训练 标注数据 加密标注数据 原数据1 加密数据1 加载到内存 原始数据 数据分割 原数据2 加密数据2 原数据3 加密数据3 磁盘统一存储 解码&合成 模型训练
35. 目录 1. 2. 3. 4. 5. 6. 金融智能的应用场景 数据底座的背景分析 高效:用AI解决AI的问题 精准:流程与工具并用 安全:金融的底线 总结
36. 数据底座总体功能框架 平 台 标注平台 产品 封装 数据资产 宽 表 原数据维度 图像平台 数据多维透视 NLP平台 报表 质量多维评估 标注label维度 知识图谱 标注任务维度 监控&预警 数据集维度 管控&治理 模型迭代维度 Dump 采集&接入 标准数据集 原始数据 反馈数据 加工数据 标注&预测结果 归一 标 注 数 据 人工标注 结果 算法预测 结果 XXX预标 注结果 Label数据 抽取 标注任务信息 原数据、meta数据 …... 统一存储 统一格式 统一分析 标注质量指标 样本质量指标 统计信息 ...... ...... 能力组件 模型市场 主动学习 数据增强 数据安全 统一UDF 分析引擎 流程引擎
37. 未来,逐步通过mPaas将AI能力开放
38. 回到开头的问题 • 某YC的创业团队,声称可以利用1/1000的数据就可以进行深度学习训练, 是否值得投资? • AI浪潮下,工程开发人员的思维方式是否要改变? 工程师生存指南?生存方法论? 工程思维、数据思维、产品思维、人文思维…