苏宁机器学习平台实践

苏宁机器学习平台实践

1. 机器学习平台实践 周鹏程 IT总部数据云公司 大数据平台研发中心
6. 关于我们 团队 我 数据云公司 大数据平台研发中心 机器学习平台研发部 职责: 提供苏宁集团大数据 存储和计算能力。 保证平台的稳定、高 效运行。 研发开发套件提高平 台易用性。 职责: 依托集群强大的计算 分析能力 提供可视化、流程化、 配置化的一站式模型 开发平台
7. 目录 n 苏宁大数据平台介绍 n 机器学习平台功能 n 业务应用案例 n 技术实现 n 业内平台比较 n 发展规划
8. 苏宁大数据平台 大数据管 理平台 数据开发 平台 准实时计 算平台 实时计算平台 OLAP平台 机器学习 平台 元信息管 理平台 Libra Kylin Storm ES Cassandra Druid 统一SQL引擎 Kafka Hive Spark sql Streaming Flink Zookeeper Map Reduce Spark YARN Hbase Flume Alluxio HDFS WEB日志 APP日志 爬虫 合作数据 …… 企业经营数据
9. 目录 n 苏宁大数据平台介绍 n 机器学习平台功能 n 业务应用案例 n 技术实现 n 业内平台比较 n 发展规划
10. 需求背景-行业背景 常规:推荐、欺诈判断、销量预测 图像:人脸识别、黄图检测、以图搜图、OCR识别、物体检测 NLP:翻译、文本摘要、智能问答、人机对话、搜索 其他:医疗诊断、自动驾驶、人机对弈、天气预测、机器人 ImageNet:1000类,126万(train),5万 (valid),10万(test)。
11. 需求背景 人工智能成为经济发展的新引擎 --2017.7《国务院新一代人工智能发展规划》 此处略过二十页、讲解人工智能对企业 的重要性…
12. 需求痛点 分布式集群环 算法模型 境搭建复杂 传承丢失 需要熟悉 业务中心交 开发语言 模型上线需 要单独部署 单机计算 量有限 流分享不便 开发周期长
13. 平台特点 可视化拖拽式 开发简单易用 全流程一站式 体验 海量数据分布 式计算平台 丰富的算法和 数据分析工具 深度学习框架分 布GPU集群
14. 使用流程 • 1、数据获取 —与元数据平台打通,直接获取已授权的数据。 • 2、数据预处理—平台提供丰富的数据预处理操作组件。 • 3、特征工程—提供了数据标准化、数据离散化,特征选择,特征降维等组件。 • 4、模型训练—提供丰富的机器学习算法,提供模型执行,训练后的模型存储等操作功能。 • 5、模型评估—分类模型评估,回归模型评估,聚类模型评估,交叉验证等组件。 • 6、离线\在线预测—离线准实时预测与数据开发平台打通,准实时预测提供模型服务化。
15. 使用demo
16. 平台界面
17. 算法支持 K-means, Gaussian Mixture Statistical Analysis (9) Feature Engineering (11) Xgboost, Random Forest, Gradient Boosting Tree, Classification Tree , Support Vector Machines, Logistic Regression, Naïve Beyes Linear Regression, Random Forest, Gradient Boosting Tree, Decision Tree ALS Natural Language Processing (14) Time Series (10) Graph(10) tensorflow FP-Growth
18. 离线及准实时模型部署 ID E平台拖入机 器学习节点
19. Tensorflow 支持
20. Tf使用
21. 平台发展概况 一期上线 (专利) 2016.5月 物流预测 项目上线 2016.8月 闪电狗一 期项目上 线 2017.2月 洛杉矶spark峰 会-介绍mlaas 2017.4月 Tensorflow+GPU支持 2017.6月 期间机器学习平台不断完善:一个季度迭代一个版本,现在是两周左右一次迭代
22. 目录 n 苏宁大数据平台介绍 n 机器学习平台功能 n 业务应用案例 n 技术实现 n 业内平台比较 n 发展规划
23. Use Case
24. Use Case
25. Use Case
26. Use Case Data 带有是否欺诈标签 的用户信息
27. Use Case Method • 数据切分为训练和测试数据 • 能过Z-score进行标准化转换 • 训练逻辑回归模型 • 测试评估
28. Use Case Evaluation • Metrics: Precision, Recall, F1 Score, AUC • ROC Plot
29. 销量预测 解题思路:利用商品历史销量对未来某段时间预测销量 问题实质:回归问题 特征工程 针对历史销量数据构建 时间窗口特征,例如最 近2天销量,最近5天销 量,最近2天销量最大 值,最近2天最小值等。 一些字符串特征例如对 商品的描述。 一些属性特征如商品大 类归属,时间属性如是 否周末,是否节假日, 是否苏宁电商大促等。 一些统计特征如对商品 存货统计等。
30. 销量预测 项目反馈: 物流销量预测无重复代码量达到了1700行。 预计开发时间需要3到4周时间,而在机器学习平台上 实现流程只需要半天时间。 效果明显比人工规则(销量的七天平均预测)提升20%
31. 平台应用案例-黄牛识别 新人券项目用高力度的新人券吸引新用户,提高易购系统的日活和拉新的KPI指标。由于新人券 力度大,自上线至今已经吸引了大批黄牛来领取优惠券,并出现黄牛出售已经领取过新人券的 帐号。黄牛的行为已经严重影响了领券的公平性和拉新指标转换率。 为此决定结合已有数据和机器学习平台的算法能力建立模型,来对每天新注册的用户进行监控, 识别出其中的黄牛,并阻止黄牛用户领取,使用新人券。 项目建立模型的目标为把当天领券的黄牛 减少到10%以下。
32. 平台应用案例-黄牛识别 随机森林、GBT 多模型融合。 闪电狗开发时间由两周降低为1天,黄牛拦截率提升10%,已经部署生产。
33. 平台应用案例-OCR识别 项目介绍: 财务工作中,需要将纸质的发票或供货清单中的单号、税号、金额、备注等录入系统。 本质为图片的OCR识别。 图片读取 ->噪音过滤 ->图像增强 ->傅立叶变换 -> 图像旋转 ->感兴趣区域提取 ->区域提取 ->区域分类 ->文字识别
34. 平台应用案例-OCR识别 基于深度学习的模型: 1 - 数据生成。 2 - 文字区域检测:yolo2 SSD 3 - 文字识别: attension ocr Attention-based Extraction of Structured Information from Street View Imagery 2017
35. 目录 n 苏宁大数据平台介绍 n 机器学习平台功能 n 业务应用案例 n 技术实现 n 业内平台比较 n 发展规划
36. 平台架构 实验管理 画布管理 组件管理 应用层 服务层 算法组件层 资源层 模型管理 数据源管理 算法包管理 模型开发 模型执行监控 模型部署 模型服务化 模型评估 任务调度 预处理 计算引擎 分类 回归 分布式存储 聚类 专题算法 数据仓库 统 一 用 户 系 统 统 一 数 据 安 全 体 系
37. 算法实现 特点: 1、Pipeline的接口定义。 2、Jobserver方式调度。 3、执行进度及异常反馈。 4、算法扩展实现。 6、GPU资源管理及 tensorflow分布式控制
38. 算法实现-Jobserver
39. 状态反馈
40. 算法扩展实现
41. 算法扩展实现
42. 算法扩展实现
43. 算法扩展实现
44. 算法扩展实现
45. 算法扩展实现
46. 算法扩展实现
47. 算法扩展实现
48. 算法扩展实现
49. GPU资源管理
50. 目录 n 苏宁大数据平台介绍 n 机器学习平台功能 n 业务应用案例 n 技术实现 n 业内平台比较 n 发展规划
51. 平台发展概况-竞品对比 苏宁mlaas Other 分析 数据源 Hive/HDFS 本地csv ODPS、csv、hive 图形化工具 完美支持 较少灵活好用 极大的提升挖掘效率 SQL算法接口 支持 不支持 降低入门门槛 流处理 支持 不支持 流式处理普及,降低难度 分布式算法 大量 Spark mllib 大大拓展应用领域 多租户 支持 部分支持 资源管理 深度学习 支持 较少支持 支持图像、nlp等处理, tf,karas支持
52. 目录 n 苏宁大数据平台介绍 n 机器学习平台功能 n 业务应用案例 n 技术实现 n 业内平台比较 n 发展规划
53. 模型服务化
54. 可视化神经网络建模 卷积层 池化层 全连接层 …
55. 自定义算法 用户自定义算法支持
56. 服务 公有云服务 私有化部署