平安城市-视觉分析的十大挑战

1. 平安城市-视觉分析的十大挑战 田 奇 华为诺亚方舟实验室
2. 平安城市的背景 智慧城市 平安城市 智慧医疗 智慧交通 数字政务 平安城市 监控视频分析 智能警务系统平台 海量数据传输与存储 视频分析 ⾏⼈重识别 车辆重识别 群体事件检测 ⼈流密度估计 异常场景监测 2
3. 平安城市的应用场景 ◢ 灾害报警 ◢ 预防犯罪 ◢ 案件辅助侦破 火灾 车祸 踩踏 ◢ 打击恐怖主义 ◢ …… 美国 波士顿 2013 危险物品检测 犯罪行为识别 英国 伦敦 2017 美国 拉斯维加斯 2017 可疑人物辅助追踪 3
4. 平安城市的市场现状 中国平安城市市场规模增长趋势图 ◢ 数据量日益增长 公安引导安装监控摄 像机超过1.7亿台* *数据援引自BBC, 2018 ◢ 智能化程度较低 人工依赖度高, 线索查 找难度大,时效性差 5000 4000 3000 2000 市场规模(亿元) 1000 数据来源:中商 产业研究院 0 2012 2013 2014 2015 2016 2017 2018 公共安全监控实例 4
5. 平安城市技术概览 事件 十大挑战 群体 别 重识 车辆 行为识别 检测 三大基石 分 割 追 踪 算法 人脸识别 检测 平安城市 重建 异常场景监测 5
6. 平安城市技术概览 三大基石 十大挑战 分 割 追 踪 算法 检测 平安城市 重建 6
7. 人脸识别: 平安城市众多应用场景 人脸识别在视频监控的应用 人脸识别在大型活动中的应用 人脸识别在智慧小区的应用 人脸识别在智能终端的应用 原始图像 人脸检测 人脸识别1:N 人脸矫正 7
8. 大规模人脸识别的主要挑战 人脸识别的硬伤: 在真实环境下总是无法达到100%的可靠 同样的模型在LFW上99.7%, 拿 到真实环境下得到的准确率可能 不到75%. LFW数据集 真实场景 1:N中的N能够支持多大: 千万? 亿? 一个公司千号人,一个学校的几 万人,一个一线城市的几千万人, 难度随 N 增大逐步上升. 8
9. 大规模人脸识别的主要挑战 非配合应用场景 侧脸 模糊 光照 遮挡 在非配合应用场景下,比如监控 视频下的人脸识别,追踪违法犯 罪分子的身份信息, 这种情况下, 用户脸部会发生角度偏大,遮挡, 光线不可控等问题 人脸欺诈攻击 视频攻击, 换脸攻击, 甚至双胞 胎, 一旦被不法分子利用, 危害用 户财产安全 9
10. 人脸识别:主流方法 DeepID1: DeepFace 香港中文大学汤晓鸥团队提出的DeepID系列是一组非常有代表性的工作 是由Facebook提出的方法,是深度卷积神经网络在人脸识别领域的奠基之作 Sun, Yi, Xiaogang and Xiaoou Tang.the "Deep face representation predicting 10,000 classes.” CVPR. 2014. Taigman, Yaniv, etWang, al. "Deepface: Closing gap learning to human-level performancefrom in face verification.” CVPR. 2014. L-Softmax对Softmax做了改进,通过人为设定增加了一个角度(Margin)增加了模型的学习难度 Center-Loss在Softmax的基础上加入了一个维持类别中心的损失函数,并能使特征向所属类别中心聚拢 Google推出FaceNet,使用三元组损失函数(Triplet Loss)代替常用的Softmax交叉熵损失函数 Wen, Yandong, al.and "A discriminative feature approach for deep ECCV. 2016. CVPR. 2015. Schroff, Florian,Liu, Dmitry Kalenichenko, James Softmax Philbin. "Facenet: A unified embedding forface facerecognition." recognition and clustering.” Weiyang, et al.et"Large-Margin Loss learning for Convolutional Neural Networks." ICML. 2016. 10
11. 人脸识别在非约束场景下受限 在非约束的监控视频中,人脸往往难以获得! 因此,行人检测追踪、重识别、属性识别也尤为重要! 11
12. 行人检测追踪:平安城市的智慧之眼 u 解决问题:行人检测追踪旨在监控摄像头中定位追踪特定目标人 u 应用场景:该技术可以进行行人轨迹分析、滞留时间统计,人流分析、辅助行为识别等。 视频来源Youtube 12
13. 行人重识别:平安城市的安全保障 u 解决问题:行人重识别旨在解决跨摄像头的行人追踪问题 u 应用场景:该技术可以帮助寻找丢失儿童、老人,跨摄像头追踪犯罪嫌疑人等。 13
14. 行人属性识别:平安城市的关键一环 u 解决问题:行人属性识别是指通过算法对行人的性别、年龄、体态、衣着和附属物等进行识别。 u 应用场景:在缺失图像或视频信息时,属性的细粒度描述会发挥重要作用。如抓捕嫌疑人、儿 童走失等情况,可以通过属性识别进行搜捕排查。 14
15. 检测追踪、重识别、属性识别:技术挑战 行人姿态问题 行人姿态往往变化极其丰富 细粒度多任务问题 不同属性所需特征层级以及任务难度不同 不同场景数据风格差异问题 图像质量问题 低分辨率,光照,遮挡等 由于摄像头参数,环境因素等引起的数据风格差 异大等问题 15
16. 行人检测追踪:主流方法 行人检测 利用RPN结构提取候选框和 深度特征。通过Boosted Forest执行难样本挖掘策略, 提升模型在行人检测任务的 准确性。 行人追踪 分别利用Appearance模型、 Motion模型以及Interaction 模型来做在线多目标跟踪,提 升了多目标跟踪的精度。 Tracking The Untrackable: Learning to Track Multiple Cues with Long-Term Dependencies. ICCV 2017 16
17. 行人属性识别:属性关联划分 l 把属性类别进行关联划分,降低属性预测歧义 l 子类属性共享底层语义参数,拥有独立的高层语义 参数 Su, Chi, et al. “Multi-type attributes driven multi-camera person re-identification.” Pattern Recognition, 2018. 17
18. 行人属性识别:利用行人各部位的上下文相关性 l 把行人框垂直分为多个部分,再用多个LSTM单元对每个部分提取特征,这样的提取方式可以提取身体不 同部分的空间依赖性以及局部拓扑关系的上下文信息。 Wang, Jingya, et al. “Attribute recognition by joint recurrent learning of context and correlation.” ICCV 2017. 18
19. 行人重识别:主流方法 姿态归一化,提升对姿态变化的鲁棒性 经过关节点检测,部件定位、提取、 旋转矫正等步骤,达到人体姿态归 一化。增强模型对行人姿态变化的 鲁棒性。 部件特征对齐,多分支互学习结构,首超人类水平 基于动态规划方法进行部件特征对 齐,提升模型对检测误差的鲁棒性。 通过多分支互学习的网络结构和三 元组损失函数优化,进一步提升模 型性能。 19
20. 行人重识别:主流方法 (cont.) 数据迁移提升模型在新场景下的性能 PTGAN 利用CycleGAN的架构实现行人 图像风格的快速迁移,同时保持 行人的身份标识。通过在迁移后 的数据上训练网络模型,提升在 新场景下的最终性能 Wei et al., “Person Transfer GAN to Bridge Domain Gap in Person Re-Identification,” CVPR. 2018. 利用特征重建方法提升模型对遮挡的鲁棒性 使用稀疏重建方法对深度网络提取 到的特征进行重建,实现部件匹配, 提升遮挡情况下的模型性能。 He et al., “Deep Spatial Feature Reconstruction for Partial Person Re-identification: Alignment-Free Approach,” CVPR, 2018. 20
21. 车辆重识别:为智能交通系统提供关键支持 u 解决问题:车辆重识别技术针对车牌遮挡、污染等情况,利用车身信息识别车辆本身。 u 应用场景:该技术可以识别车辆类别等各种有关交通参数,为分析和交通管理提供可靠的依据, 达到监测道路交通状况信息的作用。能够为未来的公路智能交通系统提供关键的技术支持。 车辆 路径 分析 交通 信息 存储 车身检测 数据分析 行为跟踪 道路 交通 监测 数据存储 车牌匹配 身份识别 交通 实时 管理 21
22. 车辆重识别:技术挑战 车辆外观相似度较高 22
23. 车辆重识别:基于深度学习的城市监控车辆重识别 采用循序渐进的方法搜寻车辆:根据深度神经网络学习的外观属性(颜色,纹理,形状,种类) 模型作为粗分类器; 根据基于Siamese网络的车牌认证匹配车牌图像。最后根据时空关系协 助搜寻过程,对车辆进行重排序,得到最终结果。 23
24. 车辆重识别:双通道深度神经网络解决车辆再识别 提出双通道的卷积神经网络,一个通道提取车辆款式、车身颜色、朝向等外观特征;另一个通 道则提取车辆的车窗、车检、车身黏贴物等局部细粒度特征。 选用Batch Hard Triplet Loss损 失函数训练网络,增强不同车辆间的差异程度,提升网络模型细粒度的表达能力。 双通道神经网络 全局特征 局部特征 24
25. 平安城市技术概览 三大基石 十大挑战 分 割 追 踪 算法 检测 平安城市 重建 25
26. 行为识别:直面平安城市需求痛点 u 场景描述:行为识别是安防中最大且迫切的需求,事件按照进程可以分为事前、事中和事后,而技术防范手段的主要作用 是事前的预警防控、事中的常态监督和事后的规范执法 u 应用描述:通过信息分析平台完成行人检测,并且捕捉单个个体的行为动作,实现行为分类与识别。诸如重点区域智能监 控可自动判别在危险分子进入前后,是否进行犯罪行为 安防 公共安全 自然灾害事件 事前预警防控 企业安全 民用安全 事故灾难事件 社会安全事件 公共卫生事件 恐怖袭击事件 经济安全事件 涉外突发事件 事中常态监督 打架 偷窃 事后规范执法 行为识别 行为识别基本框架 特征提取 行人检测 姿态估计 追踪 后处理 相机参数 时空特征 行为分类 移动特征 姿态特征 26
27. 行为识别:技术挑战 特征提取问题 复杂场景变化的同一动作特征提取 时序利用问题 关键目标的锁定与动作特征提取 如何利用时序特征,获得对于视频整体的动作描述 27
28. 行为识别的主流方法:基于光流的辅助动作识别 基于图像信息和光流信息的识别 提出two-stream结构,从空间和时间两方面描述视频 不能对长 视频进行 建模 Simonyan et al. “Two-Stream Convolutional Networks for Action Recognition”, NIPS 2014 基于时序分割网络(TSN)的识别 通过片段分割与特征融合,实现对长时间的视频进行建模 Wang et al. “Temporal segment networks: Towards good practices for deep action recognition”, ECCV 2016 28
29. 行为识别的主流方法:三维卷积与递归神经网络 基于三维卷积方法(C3D)的识别 图像 二维卷积 用三维的卷积核处理视频 视频 三维卷积 性能略有 降低; 速度快, 网络简洁 Tran et al. “Learning spatiotemporal features with 3d convolutional networks”, ICCV 2015 基于递归神经网络(RNN)的识别 利用端到端的RNN来处理时间序列问题 RPAN网络 Du et al. “RPAN: An end-to-end recurrent pose-attention network for action recognition in videos”, CVPR 2017 非常适 合对时 间维度 的处理 29
30. 群体事件检测:智能视频分析与事件检索 u 场景描述:海量视频监控数据与人力分析瓶颈之间的矛盾,使得安防系统有效运转面临挑战。一方面对视频监控人员人体 产生危害,另一方面,相关研究表明人在盯着视频画面仅仅22min之后,人眼将对视频里95%以上的活动信息视而不见 u 应用描述:通过对视频的迅速分析,可以检测出监控范围内的目标对象,进一步实现群体行为的判断,诸如重点区域是否 出现异常态势(例如人员异常聚集等)并及时预警。人群行为分析能够为公安机关实现快速、精准、移动化指挥提供依据 传统模拟监控 数字化监控 高清化/网络化监控 智能化监控 视频数据量爆炸式增长,大 安防时代来临,现代安防系 统逐渐向智能化综合管理平 台演变 骚乱 集会 监控中心 30
31. 群体事件检测:技术挑战 群体中个体的关系推理 个体行为/关系推理:如何判断群体行为中的个体间关系,如何通过个体关系判断群体行为 场景中异常行为的判断 如何对场景中的正常行为与异常群体行为做出甄别 正常 异常 31
32. 群体事件检测的主流方法:树结构与图结构的时空模型 树结构时序递归模型 对场景中的个体通过CNN+LSTM提取时空特征,通过层次化建模 进行群体行为识别 Ibrahim, Mostafa S., et al. "A Hierarchical Deep Temporal Model for Group Activity Recognition." CVPR. 2016 图结构群体时空特征聚合模型 提取个体在时间与空间域的特征,并对群体进行图模型建模,通过 上下文编码得到个体间交互关系,最终识别群体行为 Lan, Tian, et al. "Discriminative Latent Models for Recognizing Contextual Group Activities." TPAMI 2012 32
33. 人群密度估计:“面”布防,宏观掌控 u 场景描述:此类场景为特定时间、特定活动下的人流量聚集,诸如2014年跨年夜上海外滩踩踏事件。重点区域与 重点社会活动的布防对于公安部门而言有着重要意义,同时也已经成为公安部门安防布控的重点和难点 u 应用描述:研究复杂场景与极度拥挤人群的人头计数、流量估计和事件预警。通过对视频的分析处理,监测可视范 围内的人群数量,捕捉人群的滞留状况与移动方向,估计人群的主要流向与流量,形成重点场所及区域的面状布防 中国人口的流动趋势 2011-2015年中国城镇化趋势 80000 75000 70000 65000 71182 69079 65656 64222 73111 62961 74916 77116 61866 60346 60000 55000 社会经济转型阶段 人口流动 ,就业分布 城市和农村格局变化 人群密度较高区域矛盾冲突表面化 社会管理难度加大 50000 2011年 来源:国家统计局 密度估计 2012年 城镇人口(万人) 2013年 2014年 2015年 乡村人口(万人) 10 流向估计 平安城市 33
34. 人群密度估计:技术挑战 人群密度剧烈变化 高密集人群的密度估计误差大 跨 密 度 场景的多样性 场景多变对模型的鲁棒性是很大的挑战 跨 场 景 34
35. 人群密度估计的主流方法:跨场景方法 基本框架 基于整张图片或者图片块的端到端的深度学习估计模型 跨场景人群密度估计 基于场景语义及人群密度相似度检索的跨场景密度估计 Zhang, et al. "Cross-scene crowd counting via deep convolutional neural networks." CVPR. 2015 35
36. 人群密度估计的主流方法:跨尺度方法 单张静态图片: 基于多路神经网络的跨人群密度尺度的估计模型 • 大小不同的卷 积核; • 使每一列 CNN适应不 同的人头大小; • 任意角度/分 辨率的精确密 度估计 Zhang, et al. "Single-Image Crowd Counting via Multi-Column Convolutional Neural Network." CVPR 2016. 跨人群密度尺度估计模型 行人检测与密度估计结合 结合行人检测,针对不同的场景自适应选择计数模式 密度小 计数模式 密度大 回归模式 Liu, et al. "DecideNet: Counting Varying Density Crowds Through Attention Guided Detection and Density Estimation." CVPR 2018. 36
37. 平安城市技术概览 三大基石 十大挑战 分 割 追 踪 算法 检测 平安城市 重建 37
38. 可疑物体检测/识别:见微知著,防患未然 u 应用描述:公共场所携带违禁物品,如枪支弹药、管制刀具和易燃易爆物品等严重威胁着公共安全和社会秩 序。运用机器视觉的方法进行对公共环境中的可疑物品进行检测和识别可以有效地推动平安城市的建设。 可疑携带物检测 可疑丢弃物检测 伪装物品检测 藏匿物品检测 38
39. 可疑物体检测/识别:技术挑战 小物体检测 低分辨率的小目标 难以检测 遮挡、藏匿 普通摄像头无法探测 藏匿物品 39
40. 可疑物体检测/识别:主流方法 超分辨率方法 X光/红外图像物体识别 X光 目标检测 CNN模型 Li et al. “Perceptual generative adversarial networks for small object detection,“ CVPR. 2017 40
41. 异常场景监测:解决城市安全隐患 u 应用描述:千里之堤溃于蚁穴,重大公共安全事故往往起源于微小的异常。运用机器视觉的方法对特定地点 进行监测,可以第一时间发现微小异常并及时采取相应措施,防患于未然,保障人民的生命和财产安全。 城市火灾监测 车辆逆行监测 桥梁裂痕监测 道路积水监测 41
42. 异常场景监测:技术挑战 分辨率低 监控摄像头往往无 法捕捉高清图片 高清 低清 异常行为难以定义 难以与正常行为区分 异常 正常 42
43. 异常场景监测的主流方法: 图像增强 SRGAN等超分方法 场景分类 裂缝 正常 多线索融合 车辆行驶图 异常行为 地面标志线 Ledig, Christian, et al. "Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network." CVPR 2017. 43
44. 平安城市技术概览 事件 十大挑战 群体 别 重识 车辆 行为识别 检测 三大基石 分 割 追 踪 算法 人脸识别 检测 平安城市 重建 异常场景监测 44
45. 总结与展望 推理能力 u 从中小规模识别到大规模识别 平安城市需求迫切,数据规模急剧增大 u 从配合场景下的识别到非配合场景下的识别 细粒度 理想情况下设计的模型无法适合平安城市中诸多复杂场景 u 从粗粒度识别到精细化识别 精细化识别将为平安城市构筑牢固的算法基石 u 从识别到推理 大规模 非配合 在识别、分类等基础任务上,计算机视觉算法蓬勃发展, 但在异常监测、治安事件预警等需要推理的任务上还需继续探索 45
46. 总结与展望 u 强大计算平台助推平安城市建设 人工智能落地应用离不开强大算力支持 AI芯片将助力平安城市建设 46
47. 敬请指正! Thanks for advising!