永洪科技 邵文龙 数据分析为客户带来可感知,可评估的价值

CodeWarrior

2019/07/08 发布于 编程 分类

GIAC2019 

文字内容
1. 数据分析为客户带来可评估的价值 邵⽂龙 永洪科技 CTO
2. About Me • 毕业于北方交通大学,电子工程硕士学位。北京大学国家发展研究 院MBA。 • 曾就职于朗讯科技和VMware,负责研发管理工作。在加入永洪之 前,在VMware北京研发中心担任研发总监,组建桌面云研发团队, 在6年时间里,将北京部门发展为一个承担起桌面云这个超过6亿美 元业务的近半核心开发工作的高效团队。研发的iPad桌面客户端在 苹果应用商店免费商业应用软件中下载量曾排名第一。拥有数项美 国专利。 • 2016年加入永洪科技,全面负责公司的产品及研发工作,成功带领 团队实现大数据产品的性能升级,并申请数项专利。
3. About Me • 毕业于北方交通大学,电子工程硕士学位。北京大学国家发展研究 院MBA。 • 曾就职于朗讯科技和VMware,负责研发管理工作。在加入永洪之 前,在VMware北京研发中心担任研发总监,组建桌面云研发团队, 在6年时间里,将北京部门发展为一个承担起桌面云这个超过6亿美 元业务的近半核心开发工作的高效团队。研发的iPad桌面客户端在 苹果应用商店免费商业应用软件中下载量曾排名第一。拥有数项美 国专利。 • 2016年加入永洪科技,全面负责公司的产品及研发工作,成功带领 团队实现大数据产品的性能升级,并申请数项专利。
4. 关于永洪科技 2017年6月 2017年度运营商大数据行业应 用实践奖 n n 2015年12月 获东方富海领投B轮1亿元融资 n 2015年12月 “大数据领域标杆企业奖” n 2012年2月 永洪科技正式成立 2012年12月 Yonghong Z-Suite V1正式发布 n 2015年11月 优秀大数据应用服务提供商 n 4 1 20 2 1 20 n n 2014年4月 Yonghong Z-Suite V5发布 2014年12月 获经纬中国领投A轮融资 5 1 20 2017年2月 “中国大数据企业排行 榜”BI/决策支持领域第一名 n 6 1 20 7 1 20 2016年7月 中国大数据企业排行榜”BI/决策支持 领域第一名 n 2016年4月 荣获36Kr“最受欢迎企业服务商”评 选第一名 n 2016年7月 获腾讯领投C轮2亿元融资 n
5. Z-Suite一站式大数据分析平台 数据应用行业生态体系:金融业、制造业、电信业、互联网、医疗业、政府、能源业、制造业... 门 户 数 据 展 示 智 能 数 据 分 析 数 据 景应 用 场 驾驶舱 精准营销 设备检修 即席查询 风控统计 财务分析 数据报告 用户行为 ... 挖掘算法 多维筛选 排名计算 图表 动态计算 聚类 R集成扩展 自助提取 缩放聚焦 报表 超链接 分类 预测分析 可视化筛选 笔刷联动 数据填报 数据下钻 回归 联动挖掘 参数传递 动态指标 高亮预警 自定义门 户 时序 结果导出 数据集市 数据建模 数 据 建 模 人力优化 数据整合 Apache Log 数据准备 Hadoop ETL 分布式计算 Data Warehouse 列存储 Database 内存计算 分布式通讯 ······
6. Agenda 银行网点运营管理分析案例 销售预测与库存优化案例 大型发电机组继电器故障预测 手工录入商品的智能分检系统 商业智能的未来发展趋势
7. Agenda 银行网点运营管理分析案例 销售预测与库存优化案例 大型发电机组继电器故障预测 手工录入商品的智能分检系统 商业智能的未来发展趋势
8. 网点数据化运营解决方案 • 项目背景 在经济环境新常态下,银行面临这经营成本上升、利润下行的 压力。在银行网点的管理上,存在着: • 总行管理“有心乏力” • 运营效率差距 • 客户体验有待提高 为了应对新的经济形势,提出网点智能化策略。 方案目标是压缩成本、提高效益,最终实现网点的精细化管理。
9. 网点数据化运营解决方案 • 项目目标 1. 通过网点运营管理信息化项目,集中反映本行支行网点及社区支行网 点的整体运营管理水平,分析网点在经营管理中存在的部分问题,为 提高网点经营业绩提供决策支持。 2. 量化展示网点经营信息。通过建设网点运营管理信息化项目,直观展 示网点硬件资源,如:网点位置、面积及分区、网点渠道有型及无形 渠道、网点人员等; 3. 通过网点运营管理信息化项目,统计展示网点经营业绩,如:零售核 心客户数量、网点储蓄、理财、贷款、中间业务输入等经营指标;
10. 网点数据化运营解决方案 • 项目目标 4. 反映网点主要的经营成本。如:人力成本、场地成本、运 营成本等; 5. 反映网点运营管理情况。如:客流情况、交易情况、服务 情况、渠道运营情况等。 6. 分析诊断网点运营管理中的部分问题。如柜员交易用时的 诊断、渠道交易分流情况的诊断、渠道交易流程的诊断等。
11. 网点管理 网点的地理位置分布,网点总人数和网点内部员工属性(人数,性别,年 龄),员工岗位类型、学历类型、工作年限和等级分布;柜台总数、机具 总数、网点类型;网点机具信息,渠道类型。 网点经营分析 储蓄余额、贷款余额、理财,默认显示t-1日数据,若无t-1数据则显示最 新数据;中收总额、收入、零售成本、损益,默认显示上月末数据,若无 上月末数据则显示最新月数据。 网点运营分析 交易总量、客户数、转介数;网均交易量、网均客户数、网均转介数;客 户满意率、弃号率、客户平均等待时机、业务平均办理时间;柜员服务人 数、柜员平均交易量、柜员平均交易时长、审核人员平均审核量。 网点基础信息 网点名称,网点类型,网点标签,开业时间,营业时间,网点零售负责人, 网点电话,网点地址,网点预估人流量,网点团队人数。
12. 加强对各分支行及网点的KPI考 核,健全并完善考评体系 不断更新层级部门的KPI目标值, 结合每月实际发生值进行考评。 辅助业务部门监控指标趋势。 满足行领导自上而下逐级钻取, 纠察异常指标的产生原因和源 头部门,确定责任人并及时解 决的需要
13. 系统功能架构 网点运营信息化项目 首页 网点管理 网点基础 信息视图 网点基础 信息管理 网点签约 信息管理 网点租金 信息管理 网点信息 变更管理 网点经营情况 网点运营情况 报表功能 报表应用 系统管理 概览情况 概览情况 网点基础 信息报表 报表检索 用户管理 我的消息 储蓄情况 今日之最 收藏夹 角色管理 待办事项 贷款情况 客流情况 参数管理 公告 中间收入情况 权限管理 码表配置 理财情况 交易情况 客户情况 服务情况 系统访问量统计 成本情况 工作效率情况 操作日志管理 网点照片管理 网点改造 信息管理 营销情况 网点经营 情况报表 收入情况 损益情况 综合金融资产情况 批处理监控 基本功能 数据录入
14. 场景实现
15. 技术架构 系 统 架 构 实 现 方 式 应用层 展现层 HTML/JS 数据层 控制层 业务逻辑层 数据访问层 数据存储层 用户权限开发 (对接LDAP) 报表开发 JDBC Oracle/MPP 数据仓库负责 数据存储/整合 网点管理 网点运营 分析 浏览器 REST API 移动端 参数解析 网点经营 分析 数据源 EPS ET JDBC 数据仓库 (EDW) ETL ETL ET P ET 网点基础 信息 L P … BIPS EPMS SAP 手工数 据 展现层执行架构 应用层执行架构 数据层执行架构 PC机、手机,大屏 J2EE服务器、操作系统 数据库服务器、存储服务器、操作系统
16. 系统部署架构 Oracle 数据库 Server1 用户 F5 Server2 Server3 Server8 c r r r c c c c m m n n m m m m m m m m r m m m
17. 用户使用规模 支行网点管理人员4000人 支行大堂经理4000人 分行零售条线管理人员 300人 分行零售计财岗 100人 分行网点建设管理岗 100人 分行系统管理员 50人 总行系统管理员 1人 总行零售条线管理人员 20人 总行零售计财岗 2人 总用户数量8575人 总行网点建设管理岗 2人 平均同时在线1029
18. 平台收益 改变了行方数据 “脏乱差”的格 局,使业务部门 及领导层的决策 分析更加精准 结合行方绩效考 核体系,形成了 一套规范、严谨 的考核制度,提 升了各部门的业 绩 理顺了数据分析 各环节的衔接流 程,通过规范管 理与流程自动化, 加快了业务需求 的响应速度 对异常指标加强 了监管,各项业 务异常发生率普 遍降低 通过内部推动自 服务体系建立, 增强了业务人员 对真实数据及业 务场景的掌控力 适应银行发展需 求,对行方的长 远发展起到了支 撑作用
19. Agenda 银行网点运营管理分析案例 销售预测与库存优化案例 大型发电机组继电器故障预测 手工录入商品的智能分检系统 商业智能的未来发展趋势
20. 零售业关注的指标 店效、平效 用户满意度 • • • • 用户满意 交 通 配 送 导 购 结 账 商 品 质 量 互 联 网 体 验 销售额 库存周转率 • • 提升销售 售 后 服 务 商 品 规 划 商 品 价 值 客 户 价 值 进 店 客 流 利润 毛利回报率 提升利润 商 品 满 足 率 -- 合 理 库 存 商 品 满 足 率 商 品 摆 放
21. 全面分析 聚焦正确的客户 市场 跟进用户价值和用户生命周期 分析,哪些客户是目标客户群。 管 理 财 务 成本分析 诈/ 欺 少 减 损失 精准营销 客户画像 提供正确的商品 基于在线和进店顾客是否为他 们准备好了正确的商品,这些 商品是否有合理的利润。 预测与优化 供应 链 面对大量的退货、交易、采购订 单和网络连接如何确定哪些是不 合规的。 划 保护你的业务 规 品 我们如何检查,发现和确定影 响业务的根本原因。 商 分析机会点 清货促销 覆盖需求 如何以最低的供应链成本覆盖 客户的需求? 个性化的客户体验 如何做到让每位顾客得到最好的购 物体验?是否可以为客户精准推荐 他所需的商品和感兴趣的营销活动。 电子 商务 营 运 提升效率 铺 店 能耗,员工和设备的表现都是最好 吗?
22. 促销优化 促销效果怎样? ? • 多久进行一次促销,在 哪里? • 每次促销对财务有何影 响? • 更多顾客光顾了还是市 场份额增加了?
23. 促销优化 促销优化和本地化的收益 针对不同的市场选择合适的商品以合适的价格进行促销,将促销信息通 客户分群 过合适的渠道推送到合适的目标人群以实现销售收入和利润的最大化。 市场一 促销优化 01 02 针对不同促销 价格的what-if 销量预测 分析不同区域 不同季节的客 户商品偏好 本地化 03 客户分群,对不 同客群进行价格 敏感度分析 04 分析不同客群 的购买行为和 接触渠道偏好 市场二 05 分析不同商品 的库存及毛利 空间 市场三 提升3-5% 的单客消费
24. 清货促销 清货促销优化的收益 30% OFF 市场一 市场二 市场三 10% OFF 45% OFF 整体提升2% 的利润率
25. 清货促销 可供销售周数 店铺平均剩余库存可供销售5周? 10 平均值 5 1 1 2 3 4 5 6 7 8 店铺 9 10 11 12 13 14 15
26. 清货促销优化价值 • 通过分析减少没有必要的清货促销花费 • 当地需求预测与库存水平 • 计划的促销力度与客户对价格变化的反馈 • 按照区域、城市甚至店铺自动计算最佳的促销价格 • 在正确的时间、正确的地点实施正确的促销价格 • 通过减少没有必要的清货促销成本可以: • 直接提升销售收入或利润 • 加快清货速度,为新货或更高利润的产品腾出空间
27. 库存优化 缺货 增加库存来覆盖需求的波动 两难选择 降低库存忽略客户需求
28. 库存优化 优化后的库存
29. 库存优化 仪表盘 监控 报表 供应链中心 预警 库存管理 分析 工作台 计划员 工作台 建议计划订单 情景 模拟 配送 业务规则与流程 预测及置信区间 最大最小库存 安全库存 提前期 服务水平 成本 经济批量 库存优化计 算 再订货点 库存支持期间长度 订单优先级
30. 库存补货逻辑 库存量 服务水平 (无缺货概率) 订货 数量 上限 订货量 再订 货点 订货量 安全 库存 提前期 提前期 提前期 平均需求和提前期为常数时的基本库存策略 • 平均需求 时间 缺货概率 再订货点 需求服从正态分布时,满足 一定服务水平的再订货点 假设需求没有波动,再订货点 ( Reorder Level– ROL )为 ROL = d * LT 其中: d – 单位时间段内平均需求, LT ( Lead Time) – 提前期 • 增加安全库存应对需求波动,满足一定的服务水平,再订货点为 ROL = d * LT + Z * 单位时间段内需求 的标准差 * sqrt( 提前期 ) 其中: Z 为安全库存因子,当需求服从正态分布,服务水平为95%时, Z = 1.65
31. 库存优化效果 预测分销 高 客户服务水平 降低成本 平均降低 5-15%的库存 库存不足 低 低 减少的库存成本 库存成本 库存太多 高
32. 某大型食品企业需求预测 22个 大区 业务复杂 历史销量曲线图 销售预测 协同平台 开发 需求新 3、18个 月预测 5%-8% 准确率 提升 目标要求高 1 未来一年各 月的销量是 多少? 业 务 需 求 促销增 量推荐 基准量 计算 2 3 基准量 (BASELINE) 促销增量(UPLIFT) 基准量 未来一年各月 的基准销量是 多少?
33. 某大型食品企业需求预测 业务场景:Baseline(基准量)=总量 - UpLift(促销增量) 如何获得促销增量? 分析上,可否看成序列的异常点? ? 促销活动信息? 如何选择合适的模型? 业 务 该如何一步步解决? 分 析 数 学
34. 某大型食品企业需求预测 1. 客户层级BASELINE计算 2. 大区层级BASELINE计算 大区的增量=客户层级的增量汇总 大区的BASELINE=大区总量-大区 增量 异常点大小不同,增量不同 1 异常点分类 “异常点探测” LOESS+ESM 2 3 增量计算 1. ARIMAX模型计算增量 5 基准量计算 4 增量推荐 增量推荐,是一个匹配的过程 客户号+渠道+促销活动信息 异常 点 平滑 值 ES M C1011 分销 路演活动 201607 客户号+渠道+促销活动信息+促销 活动增量 2. LOESS和ESM模型计算增量 C1011 分销 x1 201607 80
35. 某大型食品企业需求预测 1 常规时间序列模型 • • • • • 2 间歇模型 业务模式变化较稳定 符合典型的时间序列特征 FORECAST+影响因素+事件 ARIMA/ARIMAX/UCM/ESM 层级调节 • • • • 70% 需求间歇性 促销活动频繁 IDM 总量分解模型 12% 产品 10% 3 确定性时间序列分解模型 • • • 季节性强 趋势稳定 Yt=St*Tt*Ct*It 8% 4 新品模型 • • • • • 数据少、波动大 曲线拟合 灰色预测 移动平均 NPF
36. 某大型食品企业需求预测 项目预测22个大区,约9900个产品,全国层级M+2月误差基本在20%以内,大区层级M+2 月误差基本在30%以内。按全国-大区区域层级2017年01月预测准确率分布图如下所示: 预测结果分布图 东北 81% 晋蒙62% 西北 77% 津冀 78% 山东 76% 河南 77% 安徽66% 四川72% 湖北 75% 云贵 74% 珠江海 78% 广州 80% 莞深 73% 江苏 72% 上海 66% 浙江63% 江西 湖南76% 78% 福建 73% 广西78% 北京 81% 粤东 75% 全国层级预测准确率 • 80.3% 大区层级预测准确率 • 74.1%
37. 系统设计分析 数据源 销售数据 促销活动数据 促销商品数据 促销门店及区 域数据 库存数据 影响促销销量 的外部数据 会员数据 其他数据 ETL 促销预测 数据集市 DW 数 据 可 视 化 促销监控与预 警 促销预测、库 存与模拟报表 预测与促销 结果分析报 表 预测与促销 绩效 ERP 促销需求预测 促销监控与 效果分析 促销审批 促销库存优 化
38. 系统逻辑架构 促销 KPI 促销预 测与模 型报表 促销商 品库存 报表 促销进 度监控 与预警 预测准 确率分 析报表 促销效 果分析 报表 促销库 存分析 报表 促销需求 预测 促销库存 优化 促销效果 模拟 促销监控 与结果分 析 促销方案 审批 ARIMA 季节非季节 指数平滑 逻辑回归 神经网络 线性规划 Winters 促销业务 规则 决策树 非线性规 划 线性回归 信息展现层 应用层 模型规则层 促销预测与库存优化数据集 数据管理层 企业级数据仓库 数据清洗与转换 External ERP 元数据管理 DB CRM ETL调度 EXCEL Data Lake 数据源
39. Agenda 银行网点运营管理分析案例 销售预测与库存优化案例 大型发电机组继电器故障预测 手工录入商品的智能分检系统 商业智能的未来发展趋势
40. 大型发电机组继电器故障预测 客户需求 发电机组上数百继电器,使用过程中经常会发生损 坏,损坏的继电器需要及时更换。根据继电器的测 试参数,如何智能地判断继电器是否合格?是否需 要替换?
41. 大型发电机组继电器故障预测 业务指标定义 不同发电机组上,继电器的相关参数: 吸合时间 吸合电压 释放时间 释放电压 常闭接触电阻 绕圈电阻 常开接触电阻
42. 大型发电机组继电器故障预测 大型电厂发电机继电器检测 数据处理情况 数据情况处理 • 数据积累有数万条 数据积累有数万条 • 数据探索 • 数据分布情况分析 ü 业务数据整合 ü 处理异常数据 数据分布情况分析 · 业务数据整合 数据探索 · 处理异常数据 · 样本中包含较多的噪声标签
43. 大型发电机组继电器故障预测 数据研究 采样数据 机号 位置编号 绕圈电阻 闭电阻1 闭电阻2 闭电阻3 闭电阻4 开电阻1 开电阻2 开电阻3 开电阻4 吸合电压 释放电压 吸合时间 吸合回跳 释放时间 释放回跳 测试结果 10.4 62.1 209.2 38.4 23.8 16.3 28.44 12.6 20.18 1.06 4.02 4.44 合格 177.9 750 34.5 10.4 13.5 12.2 9.6 28.56 12.52 20.27 0.69 4.02 4.51 合格 18.6 92.8 51 10.3 12.9 11.1 9 28.64 12.48 20.31 1.01 4.04 4.34 合格 13.9 26.1 26.2 17 11 12.1 10.6 9.4 28.52 12.52 20.34 0.94 4.03 4.17 合格 21.5 26.7 17.5 14.4 11.3 12.4 10.2 9.2 28.68 12.44 20.38 1.06 4.04 4.3 合格 920AR XR00 1176 9.2 750 920AR XR01 1179 11.5 920AR XR02 1177 16.2 920AR XR03 1176 920AR XR04 1177 数据探索
44. 大型发电机组继电器故障预测 数据研究 相关性分析 影响模型特征主要属性: 吸合时间、绕圈电阻、释放回跳、常开接触电阻3、 常开接触电阻4、常闭接触电阻1、常闭接触电阻4
45. 大型发电机组继电器故障预测 大型电厂发电机继电器检测 构建模型 常规模型 排序剪枝 对不同常规模型进 行测试(决策树, 随机深林,逻辑回 归,XGBoost,神 经网络等),效果 一般 通过调研,最后运用 排序减枝(Rank Pruning)算法,有 效处理噪声样本,构 建继电器合格预测模 型
46. 大型发电机组继电器故障预测 排序剪枝算法 • 观察标签同真实标签不 符 – Noisy-labeled样本 • 二分类问题 • s表示观察到的标签 (Pnoisy, Nnoisy); y表示真实 标签(Ptrue,Ntrue)
47. 大型发电机组继电器故障预测 排序剪枝算法 Baseline with LR • 使用概率分类器如逻 辑回归对噪声样本进 行分类训练 • 该分类器可以对样本 进行初步分类,因为 基于噪声样本,所以 分类不够准确
48. 大型发电机组继电器故障预测 排序剪枝算法 首先确定样本的正负类别 的正确概率门限,然后从 s中剪除概率较低的部分 样本,最终从正负类别 (Pnoisy, Nnoisy)中找出大概率 标记正确的子集Pright, Nright
49. 大型发电机组继电器故障预测 排序剪枝算法 • 使用逻辑回归分类器 对剪切的子集重新进 行分类训练 • 该分类器即为RP分类 器,能够基于噪声数 据得出更准确的分类 模型
50. 大型发电机组继电器故障预测 模型结果 大型电厂发电机继电器检测 模型结果分析 生产环境预测准确率达到80%,作为对比: • 预测准确率达到85%以上。 有经验的老师傅预测准确率为60%多点,初级工人 更低 常规分类算法准确率也在60~70% 为客户节省大量成本
51. Agenda 银行网点运营管理分析案例 销售预测与库存优化案例 大型发电机组继电器故障预测 手工录入商品的智能分检系统 商业智能的未来发展趋势
52. 手工录入商品的智能分检系统 客户需求 大型电厂发电机继电器检测 • 商品种类高达数千万,不同种类商品差异巨大 • 商品数据为手工填写,规格,厂家混杂,内容杂乱 • 商品分类粒度较粗,例如,如下商品统一划分在化妆品类别 • 要求对于粗粒度的商品进行精细的类别划分,以便于精准控制和查验 RECIPE水晶防晒喷雾SPF50+PA+++ Timeless玻尿酸精华液 Paula's Choice宝拉珍选平衡化妆水(混合型) Esthe dew 樱花限定樱花精华保湿化妆水 500ml(樱花) 资生堂Shiseido 水之印系列 氨基酸透亮化妆水(清爽) Mistine 雪花冰点高倍身体防晒乳 SPF50 PA++++ 100ml ON THE BODY香水身体乳-幸福 400ml 赠玫瑰沐浴露&玫瑰 ORION男性私处按摩乳膏 MartiDerm 夜间焕肤精华Alfa Peeling 60ml 23 years old补水防晒霜SPF45++++ 50ML 防紫外线 美 Delon 迪朗贝斯身体黄油滋润霜200ml(活力巴西莓杞子) 澳大利亚 Rosien 品牌定制款玻尿酸水光针套组
53. 手工录入商品的智能分检系统 系统构架 历史商品数据 外部数据 模型训练 商品抽批 指令 商品分类模型 未知商品 风险反馈 细化商品 抽检指令
54. 手工录入商品的智能分检系统 数据治理 清爽了许多! string = re.sub("[0-9]+粒装$", "", string) string = re.sub("[0-9]+粒$", "", string) string = re.sub("[0-9\ ]+毫升$", "", string) string = re.sub("片装$", "", string) string = re.sub("瓶装$", "", string) string = re.sub("袋$", "", string) string = re.sub("瓶$", "", string) string = re.sub("盒$", "", string) string = re.sub("滋养型$", "", string) string = re.sub("滋润型$", "", string) string = re.sub("院装$", "", string) string = re.sub("中样$", "", string) string = re.sub("[0-9\/]+支$", "", string) string = re.sub("限量版$", "", string) string = re.sub("限量套装$", "", string) string = re.sub("进口$", "", string) 大创美白精华 迪朗贝斯身体黄油滋润霜 快速上妆粉底液 嫩白保湿妆前乳 牛奶卸妆乳 森田药妆复合玻尿酸保湿精华乳 焕白身体乳提亮舒缓滋润修复亮白润 肤乳 平衡肌肤黄瓜芦荟凝胶保湿晒后修复 润肤乳 雪兰草鱼子酱赋活面霜 德莱博冰蓝舒缓啫喱 悦诗风吟绿茶籽精萃水分菁露 红韵焕颜滋养霜 黄金(玻尿酸)爽肤水 玻尿酸臻致水合乳液
55. 关键词提取 目标:提取如右图所示的关键词 实验了TF-IDF算法,TextRank算法,结果 如下: • TF-IDF提取了一些无关的关键词,例如 身体,品牌名等 • TextRank的关键词语提取效果略好,在 一万两千样例中提取了120个关键词, 但是依然有些似是而非的关键词,例如 身体滋润,水化妆水,修护美,乳身体 乳,精华身体等 • 继续分析数据特征,发现类别信息主要 出现在商品名称的后半部分,因此可以 采用词性截取的方法直接提取 • 再通过TextRank以及互联网收集的外部 数据进行校验,就可以得出基本可用的 结果 大创美白精华 迪朗贝斯身体黄油滋润霜 快速上妆粉底液 嫩白保湿妆前乳 牛奶卸妆乳 森田药妆复合玻尿酸保湿精华乳 焕白身体乳提亮舒缓滋润修复亮 白润肤乳 平衡肌肤黄瓜芦荟凝胶保湿晒后 修复 润肤乳 雪兰草鱼子酱赋活面霜 德莱博冰蓝舒缓啫喱 悦诗风吟绿茶籽精萃水分菁露 红韵焕颜滋养霜 黄金(玻尿酸)爽肤水 玻尿酸臻致水合乳液 玻尿酸臻致水合柔肤水 兰思诺羊毛脂膏
56. 商品分类模型 人工分类 TextRank 关键词提取 数据清洗 TextRank 分词 相似词 合并 商品类别验证 细化商品类别 存储 BERT词向量 外部数据 TextRank生成的关键词以及外部数据,可以对相似词合并后 的商品类别进行验证
57. 词嵌入的方式合并相似词 润肤露 <==> 润肤乳 润肤露 <==> 润肤霜 润肤露 <==> 护肤露 修复霜 <==> 修复液 修复霜 <==> 复原霜 按摩油 <==> 按摩霜 按摩油 <==> 按摩膏 按摩霜 <==> 按摩乳 卸妆油 <==> 卸妆霜 卸妆油 <==> 卸妆乳 卸妆油 <==> 卸妆膏 保湿乳 <==> 保湿水 保湿乳 <==> 保湿露 防晒乳 <==> 防晒棒 防晒乳 <==> 防晒粉 护理霜 <==> 护理膏 精华露 <==> 精华霜 精华液 <==> 精华粉 保湿霜 <==> 保湿乳 保湿霜 <==> 滋润霜 保湿霜 <==> 补水霜 眼霜 <==> 眼唇霜 乳液 <==> 水乳液 护理油 <==> 护理霜 遮瑕霜 <==> 遮瑕液 遮瑕霜 <==> 遮瑕膏 滋润油 <==> 滋润霜 滋润油 <==> 滋润膏 净面膜 <==> 柔面膜 净面膜 <==> 泥面膜 防晒霜 <==> 防晒乳 防晒乳 <==> 防晒液 通过词嵌入的方式合并相似词,例如洗面乳和洗面奶,通 过词向量嵌入计算距离,效果很好
58. 抽检指令生成 历史抽检结果 细化商品类别 近期抽批反馈 类别风险评估 商品抽批 指令 细化抽检指令 1. 根据历史抽检结果,对细分的商品类别进行风险评估 2. 细化商品抽批指令,根据细分类别的不同风险等级,赋予 不同的抽批概率,输出给下游系统 3. 根据近期(例如一周)的抽检结果,对类别风险评估模块 进行动态调整,实时优化
59. 系统运行结果 1 2 3 • 针对近两万的化妆品数据,在智能分类之后, 细分为220余类,各类别样本数量从数个到一千 以上 • 通过人工查验,商品细化分类准确率达到90% 以上 • 商品智能抽检系统在精准的商品细化分类能力 加持下,也得以成功实现
60. 下一步工作 1 • 泛化算法,持续 完善提高商品智 能抽检系统 2 • 测试更多的关键 词提取算法,提 升关键词抽取的 效率和精度 3 • 新商品发现,增 加对新商品的处 理能力
61. Agenda 银行网点运营管理分析案例 销售预测与库存优化案例 大型发电机组继电器故障预测 手工录入商品的智能分检系统 商业智能的未来发展趋势
62. 商业智能的6大技术趋势 迅捷 移动 开放 弹性 自服务 增强 支持 海 量 用 户 ,支撑海 量数据 , 从 始 至 终 高性 能。 满足无时无 刻、无处不 在、任意终 端的接入。 融合内外部 数据,面向 伙伴和客户 的全能力开 放,衍生丰 富的数据应 用。 灵活多变的 企业业务, 需要在公有 云、私有云 、混合云上 支持弹性计 算。 自服务数据 准备、自服 务数据洞察 ,让业务人 员成为真正 的数据公民 。 以 AI技术拓 展业务人员 边界,通过 增强建模和 增强洞察能 力,让数据 公民比肩数 据科学家。
63. 智能的商业智能 智能的系统运维 智能的数据准备 自然语言理解能力 智能的数据分析 智能的商业智能
64. 谢谢 欢迎关注msup微信公众账号 关注大会微信公共账号,及时了解大会动态、 日程及每日更新的案例! 关注公众号获得 更多案例实践