吴斐然 大规模地理空间数据分析可视化研究和实践

1. ⼤大规模地理理空间数据分析可视化研究和实践 阿⾥里里巴巴集团 吴斐然 (霏苒)
2. ⾃自我介绍 博⼠士毕业于浙江⼤大学CAD&CG国家重点实验室 可视化及可视分析组 现于阿⾥里里巴巴集团 数据技术及产品部-LBS数据
3. PART 1 可视化除了了好看还有什什么⽤用?
4. 可视化除了了好看还有什什么⽤用? × ⼤大规模地理理空间数据分析 地理理空间数据可视化在各种⽤用户⼿手中有什什么⽤用? 普通⽤用户 分析师⽤用户 算法⼯工程师⽤用户 中国⼈人⼝口分布 图源: 维基百科 杭州市⼈人⼝口分布 美国加州点位 listing embedding 聚类结果 图源: Real-time Personalization using Embeddings for Search Ranking at Airbnb (KDD2018)
5. 可视化除了了好看还有什什么⽤用? × ⼤大规模地理理空间数据分析 地理理空间数据可视化在各种⽤用户⼿手中有什什么⽤用? 普通⽤用户 分析师⽤用户 算法⼯工程师⽤用户 作⽤用 结果理理解 数据探索、 业务解释 模型结果验证、 特征挖掘 数据粒度 粗 较细~细 较细~细 数据量量 ⼩小 中~⼤大 ⼤大
6. PART 2 可视化该怎么⽤用?
7. 可视化该怎么⽤用? × ⼤大规模地理理空间数据分析 现有的地理理空间数据可视化⽅方案 MapBox Studio Deck.gl / Kepler.gl Web地图绘制基础——瓦⽚片⾦金金字塔 ⾼高德 Loca API 百度 MapV
8. 可视化该怎么⽤用? × 问题和难点 ⼤大规模地理理空间数据分析 ⼤大规模地理理空间数据分析可视化 产品适⽤用性 ⼯工程化问题 • • • • 分析使⽤用性 使⽤用性问题 数据IO (TB级) • 视觉遮挡 • 表意不不清 • 视觉提炼弱 绘制性能 数据保密性 产品兼容性
9. 可视化该怎么⽤用? × ⼤大规模地理理空间数据分析 问题和难点 ⼤大规模地理理空间数据分析可视化 产品适⽤用性 分析使⽤用性 ⼯工程化问题 • • • • 使⽤用性问题 数据IO (TB级) • 视觉遮挡 • 表意不不清 • 视觉提炼弱 绘制性能 数据保密性 产品兼容性 纽约曼哈顿性别分布 https://github.com/ uber/deck.gl/tree/6.3release/examples/ website/scatterplot
10. 可视化该怎么⽤用? × ⼤大规模地理理空间数据分析 问题和难点 ⼤大规模地理理空间数据分析可视化 产品适⽤用性 分析使⽤用性 分布 • 数据IO (TB级) • 绘制性能 • 数据保密性 • 产品兼容性 ⽐比较 关联 分析 任务 排名 多类分布⽐比较任务 趋势 宏观趋势分析任务
11. 可视化该怎么⽤用? × ⼤大规模地理理空间数据分析 问题和难点 ⼤大规模地理理空间数据分析可视化 产品适⽤用性 分析使⽤用性 分布 • 数据IO (TB级) • 绘制性能 • • ⽐比较 关联 数据保密性 产品兼容性 如何⽐比较上图两个分布的异同 分析 任务 排名 多类分布⽐比较任务 趋势 宏观趋势分析任务
12. 可视化该怎么⽤用? × ⼤大规模地理理空间数据分析 问题和难点 ⼤大规模地理理空间数据分析可视化 产品适⽤用性 分析使⽤用性 分布 • 数据IO (TB级) • 绘制性能 • 数据保密性 • 产品兼容性 ⽐比较 如何表现分布的变化趋势 关联 分析 任务 排名 多类分布⽐比较任务 趋势 宏观趋势分析任务
13. PART 2-1 产品适⽤用性
14. 可视化结果 前端绘制 绘制 层 Canvas SVG WebGL 绘制及交互 视觉 通道 编码 层 可视 化数 据层 颜⾊色 形状 尺⼨寸 位置 纹理理 对颜⾊色、形状、尺⼨寸、位置等进⾏行行编码 空间维度聚合 属性维度聚合 数值分段 类别聚合 规则四叉树 六边形分箱 矩形分箱 ⾏行行政区划 ⽣生成聚合,LOD分层等数据 预计 算层 数据清洗 预计算 归⼀一化 坐标换算 …… 对原始数据进⾏行行清洗及预处理理 数据 层 …… 多维 关系 时序 原始数据输⼊入 数据 LBS可视化管道分层 空间 ……
15. 瓶颈 平台 可视化结果 前端绘制 绘制 层 绘制 Canvas SVG WebGL 绘制及交互 前 端 数据解析 数据传输 视觉 通道 编码 层 可视 化数 据层 后 端 实 时 颜⾊色 形状 尺⼨寸 位置 纹理理 对颜⾊色、形状、尺⼨寸、位置等进⾏行行编码 空间维度聚合 属性维度聚合 数值分段 类别聚合 规则四叉树 六边形分箱 ⾏行行政区划 矩形分箱 ⽣生成聚合,LOD分层等数据 预计 算层 数据清洗 预计算 离 线 归⼀一化 坐标换算 …… 对原始数据进⾏行行清洗及预处理理 数据 层 …… 多维 关系 时序 原始数据输⼊入 数据 LBS可视化管道分层 空间 ……
16. 数据粒度 平台 可视化结果 绘制 层 粗 后 端 前 端 数据库 后端绘制 前端绘制 SVG Canvas Java2D WebGL OpenGL 绘制及交互 视觉 通道 编码 层 可视 化数 据层 颜⾊色 形状 尺⼨寸 位置 纹理理 对颜⾊色、形状、尺⼨寸、位置等进⾏行行编码 空间维度聚合 属性维度聚合 数值分段 类别聚合 规则四叉树 六边形分箱 ⾏行行政区划 矩形分箱 ⽣生成聚合,LOD分层等数据 预计 算层 数据清洗 预计算 细 归⼀一化 坐标换算 …… 对原始数据进⾏行行清洗及预处理理 离线 数据 层 …… 多维 关系 时序 原始数据输⼊入 数据 LBS可视化管道分层 空间 ……
17. ⼩小数据量量(千级别) 绘制层 前端 数据库 后端离线 前端 绘制层 视觉通道编码层 可视化数据层 后端 中数据量量(万~⼗十万级别) 预计算层 数据层 前端 绘制层 后端 后端 数据库 后端离线 视觉通道编码层 视觉通道编码层 可视化数据层 取数 ⼤大数据量量(亿级别) 数据库 可视化数据层 取数 取数 预计算层 预计算层 数据层 适应不不同场景的适配⽅方案 后端离线 数据层
18. PART 2-2 分析使⽤用性
19. 单/多个数据维度在地理理空间 上的位置 Distribution 多个分布的异同 分布 ⽐比较 空间点位间的联系 Relation 关联 分析 任务 排名 在地理理空间上点位的排序 Rank Comparison 多类分布⽐比较任务 趋势 宏观趋势分析任务 点位或分布的变化情况 Trend 对 应 的 可 视 化 ⽅方 ? 案
20. 分布 虚拟场景 1 场景 • 在纽约曼哈顿 找到适合居住 2 数据 • 纽约家庭收⼊入数据 • 纽约⼈人⼝口分布数据 • 等等 的地⽅方 3 How • 房价 • 居住环境 • 近邻构成 • 配套设施 • 交通 • 等等
21. 房价? 图源: http://listbuildingforall.com/66894/average-rent-for-1bedroom-apartment/average-rent-for-1-bedroom-apartmentinspirational-map-of-average-rent-by-nyc-neighborhood-isas-depressing-as-you-d-expect/
22. 分布 ⾯面分布 • 区块图 (Choropleth Map) • 等时线图 (Isochrone Map) 等时线图 图源: Visualizing Mobility of Public Transportation System (VAST 2014) 区块图 图源: ⾼高德地图
23. 交通? 图源: ⾕谷歌地图
24. 分布 线分布 • 路路段热⼒力力 • 轨迹热⼒力力 路路段热⼒力力 图源: https:// www.amalatif.com/ projects/2018/11/13/ street-names-as-aproxy-for-historyand-culture/ ⿅鹿特丹丹港船舶交通密度 图源: from Interactive Visualization of Multivariate Trajectory Data with Density Maps (2011) 轨迹热⼒力力 图源: MapBox
25. ⼈人⼝口构成?
26. 分布 点分布 • 图标 (Glyph/Marker) • • 图标聚类 点描图 (Dot Map) 图标 图源: ⾼高德地图 图标 图源: https://www.appinn.com/ maplet/ 点描图 图源: 百度MapV
27. 点位聚类 图源: https://github.com/Leaflet/ Leaflet.markercluster 点位聚类过程 图源: https://www.devco.net/archives/ 2015/01/05/marker-clustering-using-gmaps-js.php
28. 分布 点分布 • 热⼒力力图 (HeatMap) • 点等⾼高线图 (Contours Map) 热⼒力力图 ⽅方形分箱热⼒力力图 等⾼高线图 图源: ⾼高德地图 六边形分箱热⼒力力图 图源: 百度MapV
29. ⽐比较 类别A + 类别B 类别A 类别B 怎 样 ⽐比 较 多 个 分 ? 布
30. ⽐比较 多视图 • Small-multiple Small-multiple 图源: A Model for Structure-based Comparison of Many Categories in Small-Multiple Displays (infovis 2013)
31. ⽐比较 多类散点 ? 理理 芝加哥2010种族分布地图 图源: http://www.analyticjournalism.com/ 2010/09/20/race-and-ethnicity-mappedby-block/ 如 处 何 集 密 于 过 原 点 始
32. ⽐比较 多类散点 • 采样 • 蓝噪声采样 3D⾯面上的蓝噪声采样 蓝 噪 声 采 样 2D空间上的不不同采样分布⽐比较
33. 对图⽚片进⾏行行蓝噪声采样的结果 图源: Blue-Noise Point Sampling using Kernel Density Model (SIGGRAPH 2011) 泊松圆盘采样 (Poisson-Disc Sampling)
34. 分 类 蓝 噪 采 样 统 ⼀一 蓝 噪 采 样 类别⼀一 + 类别⼆二 类别⼀一 类别⼆二 多个类上的蓝噪声采样 图源: Multi-Class Blue Noise Sampling (SIGGRAPH 2010) 的 别 类 ? 个 布 单 分 和 声 类 噪 多 蓝 证 合 保 符 何 都 如 样 采
35. ⽐比较 多类散点 • 采样 • 多类蓝噪声采样 分 类 蓝 噪 采 样 统 ⼀一 蓝 噪 采 样 多 类 蓝 噪 采 样 多类蓝噪声采样效果对⽐比图 图源: Visual Abstraction and Exploration of Multiclass Scatterplots (VAST 2014) 类别⼀一 + 类别⼆二 类别⼀一 类别⼆二
36. 计算RMatrix 填充率最小的类别c 采样类别为c的点 N 有效性判定 获取冲突已采样 点 Y Y 更新填充率 N 是否删除冲突点 冲突点删除逻辑 存储采样 点 类别0 类别1 类别2 when c=0 rk(0,1) rj(0,2) rk(0,0) rk(0,1) rk(0,2) dki dkj max( rk(*,*) ) rk(0,1) rk(1,1) rk(1,2) dki ri(0,1) ri(0,1) rk(0,2) rk(1,2) rk(2,2) if dki > ri(0, 1) and dkj > rj(0,2) then accept 某点k的RMatrix 有效性判定 if dki <= (rk(0,1) + rj(0,1)) / 2 then conflict 冲突点判定
37. 类别A + 类别B 约13987数据点 类别A 原始数据及代码来源 https://github.com/uber/deck.gl/tree/6.3-release/examples/website/scatterplot 类别B
38. 类别A + 类别B 约13987数据点 多类蓝噪声对原始离散数 据点采样 3802数据点 多类蓝噪声采样⽐比较两个分布 多类蓝噪声对原始离散数 据点采样 5388数据点
39. 关联 图/⽹网络 • 链接关系 • 节点链接图 (Node-Link) • • 边绑定 (Edge Bundling) 集合关系 • Bubble Sets 节点链接图 图源: ⾼高德地图 各种边绑定⽅方法
40. Bubble Sets 图源: Bubble Sets: Revealing Set Relations with Isocontours over Existing Visualizations (2009)
41. 趋势 微观趋势 • 轨迹 图源: deck.gl 图源: 百度MapV
42. 趋势 宏观趋势 • 场 • glyph • 流线 • 线积分卷积 (LIC, Line Integral Convolution) glyph 现 体 何 如 流线 据 ? 数 势 的 趋 疏 观 稀 宏 线积分卷积(LIC, Line Integral Convolution) 样 采
43. 趋势 宏观趋势 流场补全 时变分布 定点稀疏 采样
44. 宏观趋势 • 时变分布 Data Flow Analysis and Visualization for Spatiotemporal Statistical Data without Trajectory Information (VAST 2017)
45. 宏观趋势 • 定点稀疏采样 P P 过滤后轨迹点P的所有 向量 过滤后轨迹点P的所有出向量量 Adaptively Exploring Population Mobility Patterns in Flow Visualization 轨迹点P多 方向的主出向量 轨迹点P多个⽅方向的主出向量量 扩散轨迹点P主向量量⾄至⽹网格 扩散轨迹点P 向量至网格 最终流场数据 最终流场数 (ITS 2017)
47. 排名
48. 排名 SRVis: Towards Better Spatial Integration in Ranking Visualization (InfoVis 2018)
49. 六边形分箱 轨迹 热⼒力力图 等时线图 热⼒力力图 路路段 热⼒力力图 区块图 热⼒力力图 矩形分箱 聚合 线分布 点描图 热⼒力力图 空间均匀 多类蓝噪 声采样 蓝噪声采 样 ⾯面分布 减少数据点 等⾼高线图 smallmultiple 分布 点分布 聚合 采样 ⽐比较 图标 图标聚类 链接 关系 节点-链 接图 不不具有完整 流场的情况 分析 任务 边绑定 排名 集合 关系 定点稀疏 采样 多视图 关联 解决 边遮挡 时变分布 流场补全 图标法 趋势 流场 宏观趋势 流线 Bubble Sets 空间集成 (SRVis) 微观趋势 轨迹图 LIC
50. The End