计算机视觉技术在顺丰 物流中的应用 张玉双

1. 计算机视觉技术在顺丰 物流中的应用 张玉双 SFAI
2. 个人介绍 张玉双 • 硕士毕业于中科院自动化研究所 • 从事计算机视觉方向研发工作7年,包括: 目标检测识别、视频行为分析、OCR、视觉定位导航等 • 顺丰科技有限公司人工智能应用部门计算机视觉组负责人
3. 计算机视觉技术在顺丰物流中的应用 数字化场院 智能化设备 业务自动化 三维信息测量 室内定位导航 文字检测识别 目标检测识别 机器视觉 违禁品识别 异常行为分析 无人机 交通信息采集
4. • 智能运单识别 • X光违禁品检测
5. 智能运单识别 数据类型多 人员成本高 包含30+字段 完成数据录入 需要上百人的团队 人工成本高 人员投入成本高(至 少1人/台+倒班轮休) 专业安检人员培训周 期长(平均3个月) 数据量大 精度要求高 运单量20万+/天 电话、地址、费用等信息要求准确 率100%
6. 智能运单识别 全面单识别包含字段(30+): Ø Ø Ø Ø Ø 收、寄件电话 收、寄件地址 收、寄单位名称 费用 月结帐号 Ø Ø Ø Ø 托寄物 勾选项 增值服务 备注 运单录入系统 终端运单拍照 智能运单 识别系统 人工审单平台 运单系统 集群 运单存储
7. 智能运单识别 智能运单识别框架图 图像预处理 文本检测定位 文本识别 地址纠偏补全 • 图像质量过滤 • 版面分析 • 柔性形变校正 文本区域检测 •汉字、数字、字母 •手写体、打印体 基于地址库的文本 处理
8. 智能运单识别 • 图像预处理 图像预处理 1 图像质量过滤 拍照模糊、光照不均 等质量问题检测 2 柔性形变校正 将图像最大化还原为模 板 3 版面分析 对内容和位置关系进行解析
9. 智能运单识别 •模糊图像过滤
10. 智能运单识别 •柔性形变矫正 不适用于严重形变
11. 智能运单识别 • 版面分析 ——对版面内的图像、文本、表格的信息和位置关系进行自动 分析、识别和理解 1 内容混杂 区域1 区域5 区域2 区域6 区域3 区域4 2 颠倒顺序 区域7 区域8 3 窜行排版
12. 智能运单识别 • 文本检测识别 图像预处理 1 文本检测 提取文本特征,区分文本与非文 本区域,精确定位文本行 2 文本识别 训练文本分类器,识别图片中的 数字、字母、汉字等内容
13. 智能运单识别 • 文本检测 Ø 一般文本检测 常见问题有: 过大过小等定位不精确 多框少框等漏检误检 文本倾斜、排版密集等导致分割不准 Ø EAST文本检测器 Multi-channel FCN结构 可检测长文本、带角度文本 EAST
14. 智能运单识别 • 文本检测 运单文本特点: 1.表单背景文字需要抑制,不被检出 2.文本长短不一,过短或过长的文本定位困难 优化思路 1 改变负样本选择策略 2 改变卷积核,增大感受野
15. 智能运单识别 • 文本识别 文本识别模型: CNN+BLSTM+CTC框架 文本识别
16. 智能运单识别 • 文本识别 运单文本的难点 数据不足 类内变化多 识别难度大 中文数据集较少、 6000 多常见字、类别覆盖不 全、分布不均衡 打印、手写多种字体混合 汉字多字组合结构,不同类别 容易混淆、手写潦草、篡改、 错别字、排版形式多变
17. 智能运单识别 • 地址纠偏补全 建立地址OCR文本与地址库文本间的翻译模型( Seq2Seq ) • 纠正OCR的识别错误 • 对人为填写的地址错误、不标准或者不完整等情况进行纠 偏和补全 原始运单 广东省深州市 文本识别结果 广东深圳罗湖区莲塘聚福路168号金色年华家园栋山 广东省深圳市 地址纠偏补全结果 深圳市罗湖区莲塘街道聚福路金色年华家园 市福田区云家家路星河大厦福民民虹商场3楼古色 深圳市福田区沙头街道福民路福民天虹商场 深圳西沙周成107国道东方建富物盛工业园十二栋一 楼广汽传视 深圳市宝安区西乡街道固戍社区东方建富愉盛工业区 公市深圳福田区侨香东路1011号深业浸咖啡(公司付) 深圳市福田区香蜜湖街道侨香路1011漫咖啡
18. 智能运单识别 性能指标 • 一致率 ——收件地址识别结果对应的网点编号正确的数据占比 • 免录率 ——与人工水平一致的数据占比 120.00% 总量 60000 一致率 可信度 一致量 总量 占比 100.00% 50000 80.00% 40000 60.00% 30000 40.00% 20000 20.00% 10000 累计占比 0.98 1470 1473 0.54% 0.54% 0.97 43153 43279 15.87% 16.41% 0.96 50019 50324 18.45% 34.86% 0.95 27966 28371 10.40% 45.27% 0.94 21089 21605 7.92% 53.19% 0.93 16624 17307 6.35% 59.53% 0.92 12522 13401 4.91% 64.45% 0.91 9601 10659 3.91% 68.36% 0.9 7567 8927 3.27% 71.63% 0.89 6171 7666 2.81% 74.44% 0.00% 0 u可信度分布区间 (测试总数272,714)
19. 智能运单识别 性能指标 • 一致率 ——收件地址识别结果对应的网点编号正确的数据占比 • 免录率 ——与人工水平一致的数据占比 120.00% 总量 60000 一致率 可信度 一致量 总量 占比 100.00% 50000 80.00% 40000 60.00% 30000 40.00% 20000 20.00% 10000 累计占比 0.98 1470 1473 0.54% 0.54% 0.97 43153 43279 15.87% 16.41% 0.96 50019 50324 18.45% 34.86% 0.95 27966 28371 10.40% 45.27% 0.94 21089 21605 7.92% 53.19% 0.93 16624 17307 6.35% 59.53% 0.92 12522 13401 4.91% 64.45% 0.91 9601 10659 3.91% 68.36% 0.9 7567 8927 3.27% 71.63% 0.89 6171 7666 2.81% 74.44% 0.00% 0 u可信度分布区间 (测试总数272,714)
20. 智能运单识别 性能分析 业务性能分析 OCR识别 类别 样本总数 地址 电话号码 准确率 1300 79.8% 5000 93.7% 地址识别+纠偏模型 类别 样本总数 一致率 OCR地址识别 272,714 51.99% 地址纠偏 272,714 82.92% 城市名称 测试量 一致率 免录率 北京(010) 10156 88.54% 78.37% 杭州(571) 7782 86.91% 82.5% 苏州(512) 6917 87.18% 79.13% 成都(028) 5193 91.1% 82.41% 上海(021) 7500 92.3% 81.3% 深圳(0755) 16000 93.3% 85.2%
21. • 智能运单识别 • X光违禁品检测
22. X光违禁品检测 危险系数高 人员成本高 违禁违运品未申报,未采用专用 通道,在飞机货车的运输途中, 会带来巨大的安全隐患 数据获取困难 安检机未联网,机器不存储数据、 导致获取X光安检图片数据非常困 难 安检人员需要持证上岗,培训时 长3个月以上,高级职称需要2年 左右 漏检/误检率高 人工成本高 人员投入成本高(至 少1人/台+倒班轮休) 专业安检人员培训周 期长(平均3个月) x光图片物体混杂,可分辨性差, 专业人员也需经常开箱重验,存 在严重的错检、漏检
23. X光违禁品检测 X光成像原理 顶照式 侧照式光源 颜色代表成分 亮度反映密度 • • • 有机物 无机物 轻金属和混合物 高密度材料 物流场景中的违禁品 9 大类违法违禁品 • • • • • • • • • 枪支、军用或警用械具类(含主要部件)及其仿制品 爆炸物品类及其仿制品 易燃品 易爆物品 毒害品 腐蚀性物品 放射性物品 管制刀具 强磁化、有强烈刺激性气味等物品 X光违禁品检测 4 大类禁运品 Ø 包裹中是否包含违禁品 Ø 检测出违禁品的类别和位置
24. X光违禁品检测 场景特点分析 1 数据收集困难 品类定义困难 划分不 明确 2 背景复杂,多种物体堆叠 特有的重叠、混淆现象 3 成像方式固定 视角和尺度变化大 4 小目标 类间差距小 5 多实例密集排布
25. X光违禁品检测 主要工作 XOR 构建大型数据集 高性能的检测方法 模型加速
26. X光违禁品检测 X-ray object recognition dataset 数据集规模 Ø Ø Ø Ø 60万个二分类的图像级标签 40万个对象级标签 37种类别和位置框 违禁品26类和常规物体17类 数据集 Pascal VOC (07+12) COCO ImageNet 标注类型 检测 检测 检测 二分类标签 多分类标签 检测 图片总数(张) 21.5K 200K 48K 600K 60K 60K 标签总数(个) 52K 500K 530K 600K 400K 400K 类别总数(类) 20 80 200 2 37 37 XOR
27. X光违禁品检测 违禁品检测模型 • FPN50 • Subnet (class+box) • Focal Loss
28. X光违禁品检测 性能分析
29. X光违禁品检测 模型加速 Ø 不同规模使用场景 Ø 高速安检机2m/s,响应速度要求更高 加速方法 构建轻量化网络结构 Ø 合并计算 Ø 通道裁剪 Ø 近似框架 Dept 加速效果 Ø Ø Ø Ø 图片分辨率1280*800 完整(Full)和快速(Mobile)两种模型 Full模型 响应时间从2.91s提升到1.05s Mobile 模型在精度下降最多0.04时,速度可以达到0.45s Ø v Full (FPN50 ) Mobile (Mobilenet) 模型 Full 参数量 32,478,411 Mobile 9,328,075
30. X光违禁品检测 工程化部署 安检机 一体显示终端 VGA 传统方式 网点方式 场院方式 VGA 编码器 边缘计算 网络 云计算 集中管理平台 数据存储 缺一张界面图v
31. 总结 智能运单识别 v Ø 数据处理与分析 Ø 手写汉字识别困难 Ø 结合业务 X光违禁品检测 Ø 问题定义与分析 Ø 数据采集 Ø 特征工程 Ø 模型加速