中科 喻之斌 基于AI的大数据处理系统优化关键技术

CodeWarrior

2019/07/08 发布于 编程 分类

GIAC2019 

文字内容
1. 基于AI的大数据系统优化 Research Center of Heterogeneous Intelligent Computer Architecture and Systems (HICAS), SIAT, CAS 喻之斌 研究员
3. 提 纲 异构智能计算中心简介 计算机系统发展对配置(设计)的挑战 处理器发展 计算系统发展 基于人工智能的大数据系统高维配置优化 磁盘大数据系统配置优化 (TPDS2015) 内存大数据系统配置优化 (ASPLOS2018) 基于人工智能的CPU性能大数据挖掘与配置优化(MICRO2018) 基于人工智能的GPGPU微体系结构设计(TCAD2017) 软件定义云计算边缘操作系统
4. 中心主任 喻之斌 研究员 博士生导师 根特大学博士后 数字所副所长 异构智能中心主任 主要研究成果 TPShare: A Time-Space Sharing Scheduling Abstraction for Shared Cloud via Vertical Labels, ISCA 2019, 计算机系统顶级会议,CCF A类会议 CounterMiner: Mining Big Performance Data from Hardware Counters, MICRO 2018, 计算机系统顶级会议,CCF A类会议 DAC: Datasize-Aware High Dimensional Configurations Auto-Tuning of In-Memory Cluster Computing, ASPLOS 2018, 计算机系统顶级会议,CCF A类会议
5. 中心骨干人员 王峥 助理研究员 德国亚琛工业大学博士 南洋理工大学博 士后 主要研究成果 High-level Estimation and Exploration of Reliability for Multi-Processor System-onChip, Springer,2017 Low-Power Processor Design Methodology: High-Level Estimation and Optimization via Processor Description Language, CRC press,2019 Current Mirror Array: A Novel Circuit Topology for Combining Physical Unclonable Function and Machine Learning, IEEE Transactions on Circuits and Systems I: Regular Papers,JCR-I区 陈超 博士后德国亚琛工业大学硕士 加拿大蒙特利尔大学博 士 主要研究成果 Probabilistic timing analysis of time-randomised caches with fault detection mechanisms,IET Computers & Digital Techniques,2019 An Adaptive Markov Model for the Timing Analysis of Probabilistic Caches , TODAES ,2017,CCF B类期刊 Local Queueing-Based Data-Driven Task Scheduling for Multicore Systems, MWSCAS 2018
6. 中心骨干人员
7. 研究内容 各类处理器芯片体系结构、大规模系统体系结构(云计算、大数据、边缘 计算等)、系统软件、及其应用研究(人工智能和大数据分析应用)。 智 内容一:FPGA体系结构及应用系统 研究(大数据系统或云计算系统) 内容二:GPGPU体系结构及人工智 能系统(如自动驾驶系统)研究 内容三:移动CPU集群体系结构及 边缘计算(如物联网应用)研究 内容四:异构智能体系结构与系统 管理软件研究(云操作系统) 构 能 内容一: FPGA研究 体 异 系 人工智 能和大 数据分 析应用 结 构 件 与 软 理 管 统 系
8. 处理器发展
9. 处理器发展 增加的晶体管都干什么了? 大部分用于增加和加强性能部件 少部分用于增加功能部件 高速缓存(L1I, LID, L2, LLC, victim) 分支预测(一级,两级) 流水线(5级、7级、12级、20级) 多核(2,4,…,80) CPU核+GPU核 。。。 影响性能的因素越来越多,设计空间急剧增大! 高维配置问题!
10. 计算机系统发展 影响性能的同种因素越来越多,设计空间也急剧 增大! 高维配置问题!
11. 性能模型发展 多假设 分析模型 观察 次多假设 少假设 统计推理模型 理论分析 机器学习模型 模拟 大数据 机器学习模型在计算系统研究中越来越重要!
12. 典型例子 Modern cluster systems have many configuration parameters Spark (~160), Hadoop (~190) Hbase (~200), Redis (~80), Kubernetes (~250) … A large number of configuration parameters are performance-critical Hadoop: > 10 (VLDB2011, TPDS2015) Spark: > 40
13. 配置挑战 Complex interactions may exist between configuration parameters Manually tuning? Automatic tuning is urgently needed. Automatically run the program with each possible conf + choose the best? Automatically run the program with sampled conf + choose the best Performance model + search algorithm
14. 需要考虑的问题 1. Which algorithm should be used? 2. Should we modify existing algorithms? Less is better Algorithm # of training examples Model parameters e.g., # of trees
15. 基于磁盘的大数据系统配置离线优化 Map阶段和Reduce阶段根据对数据的处理过程可以细分为九 个子阶段 每个子阶段均包含一些原子操作(Serialize, Partition, Sort, Combine…) 配置参数的值直接影响着原子操作的性能
16. 基于磁盘的大数据系统配置离线优化 109.7 22.9 8.7 4.3 Map各个子阶段RFHOC的平 均相对误差为4.3%,明显 低于CBO的22.9% Reduce各个子阶段RFHOC 的平均相对误差为8.7% ,显著低于CBO的109.7%
17. 基于磁盘的大数据系统配置离线优化 加速比: 结果:比目前同类世界上最好的优化方法(CBO: VLDB2011)性能平均提高2.1倍,最高达7.4倍 Zhendong Bei, Zhibin Yu (corresponding author), Huiling Zhang, Wen Xiong, Lieven Eeckhout, et al., “RFHOC: A Random-Forest Approach to Auto-Tuning Hadoop’s Configuration”, IEEE Transactions on Parallel and Distributed Systems, 2016, 5. CCF A, JCR Q1
18. 基于磁盘的大数据系统配置在线优化 FGA的执行过程包括外循环和内循环。 外循环不断产生并尝试新的配置参数,内循环过滤性能 低下的参数。
19. 基于磁盘的大数据系统配置在线优化 并行运行的影子进程Tuning Process, 伴随着作业的执行。 多次的OSC-iteration, 用户的作业越跑越快。
20. 基于磁盘的大数据系统配置在线优化
21. 基于磁盘的大数据系统配置在线优化 和MROnline(HPDC2014)相比,OSC将磁盘大数据处理程序的性能平均提高了 1.7倍,最高达2.2倍。 所需处理的数据量越大,优势越明显。
22. 基于磁盘的大数据系统配置在线优化
23. 基于内存的大数据系统配置离线线优化
24. 执行时间的变化(s) 基于内存的大数据系统配置离线线优化 Input-1 1000 900 800 700 600 500 400 300 200 100 0 Spark-KM Hadoop-KM Spark-PR Input-2 Hadoop-PR 在改变配置时,Spark程序的性能对输入数据的大小更为敏感 小输入数据集构建的性能模型不能应用在较大输入数据的场景 RFHOC不能简单套用到内存大数据分析引擎的参数自动优化中
25. 基于内存的大数据系统配置离线线优化 在数据收集时,对于每一个程序均考虑了10组不同的输入数据集 在性能模型构建时,考虑将输入数据大小作为性能模型的输入参数进行建模 在最优配置搜索时,考虑了为不同输入数据大小搜索不同的最优配置
26. 基于内存的大数据系统配置离线线优化 ANN精度最低,RS稍高,RF最高 但RF精度还不够,需要一种精度更高的建模方法
27. 基于内存的大数据系统配置离线线优化 提出层次化建模方法
28. 基于内存的大数据系统配置离线线优化 精度比较
29. 基于内存的大数据系统配置离线线优化 加速比 结果:比目前开源Spark程序的性能平均提高30.4倍, 最高达89倍 Zhibin Yu, Zhendong Bei, Xuehai Qian, “DAC: Datasize-Aware High Dimensional Configurations Auto-tuning of In-Memory Cluster Computing”, in proceedings of the 23rd ACM International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS 2018), CCF A, pp.564-577
30. 在云里使用性能计数器的困难 云里的服务器数量庞大 万级---十万级 Mesos【NSDI’11】, Borg【Eurosys’15】 云里的处理器异构复杂 多种原因构成了处理器异构 Quasar【ASPLOS’14】 Profiling的效率必须提高 MLPX是必须的,但导致了难以消除的错误 没有准确衡量错误的方法 Hardware Event数量庞大且难以理解【APSys’16】 处理器研究取得了飞速的进步,但性能计数器且没有取得很 大进步【T. Moseley】
31. CounterMiner CPU性能计数器产生的数据足以构成大数据 提出CPU性能大数据的概念,并采用数据挖掘的方法来处理
32. MLPX引起的错误 MLPX引起的错误 以OCOE为基准,评估MLPX引起的错误。 同一程序的不同次运行,时间可能不一样,定义错误带来困难。 我们的解决方案。 Dynamic Time Warping (DTW)
33. MLPX引起的错误 性能事件引起的错误衡量方法定义:
34. MLPX引起的错误 MLPX引起的错误 以OCOE为基准,评估MLPX引起的错误。 同一程序的不同次运行,时间可能不一样,定义错误带来困难。 我们的解决方案。 Dynamic Time Warping (DTW)
35. MLPX引起的错误 性能事件引起的错误衡量方法定义:
36. MLPX引起的错误 将MLPX引起的错误分为两类 Outliers Missing Values
37. Data Collector Data Collector PerfMon PAPI Perf VTune
38. Data Cleaner Data Cleaner Replacing outliers Filling in missing values K=5
39. Importance Ranker Importance Ranker Machine learning algorithms SGBRT 对硬件事件对性能的重要性进行量化排序 便于研究人员或性能工程师首先或只关注重要的事件
40. Interaction Ranker Interaction Ranker Machine learning algorithms SGBRT 对硬件事件间的交互性进行量化排序 便于研究人员或性能工程师首先或只关注重要的事件对
41. 减少错误效果
42. 硬件事件的重要性排序 ISF BRE ORO BRE BRE ISF BRE ISF 使用Haswell架构的全部事件建模并量化排序 The importance ranking for the Spark programs MSL ISF BRE BRE ISF ISF ISF ISF The importance ranking for the CloudSuite benchmarks
43. 硬件事件的重要性排序
44. 模型精度与事件数目的关系 对所有程序,并不是事件越多,模型精度越高 硬件事件中存在噪声
45. 模型精度与事件数目的关系 使用更精确模型后的重要性排序:有变化
46. BRB-BMP BRB-BMP ISF-MST ISF-BMP BRB-BMP BRE-MSL BRB-BMP BRB-BMP ISF-BRB Interaction ranking for CloudSuite benchmarks. BRB-BMP BRB-BMP DSP-BMP BRB-BMP BRB-BMP BRB-BMP ISF-BRB 硬件事件交互性排序 硬件事件间的交互性强度排序 Interaction ranking for Spark programs.
47. 重要硬件事件与配置参数的关系 应用实例:优化配置参数
48. 通过调整重要参数的性能优化 Sort和Join两个程序的优化效果 Yirong Lv, Bin Sun, Qingyi Luo, Jing Wang, Zhibin Yu (corresponding author), and Xuehai Qian, “CounterMiner: Mining Big Performance Data from Hardware Counters”, in proceeding of the IEEE/ACM Symposium on Micro-architecture (MICRO) 2018. CCF A
49. GPGPU体系结构优化设计 GPGPU体系结构设计参数众多,哪些是重要的? 提出了基于机器学习的设计参数重要性量化分析方法
50. GPGPU体系结构优化设计 试验的GPGPU体系结构设计参数
51. GPGPU体系结构优化设计 GPGPU体系结构设计参数重要性量化
52. GPGPU体系结构优化设计 GPGPU体系结构设计参数交互强度量化 BP: core_freq, core_ccta core_freq: 0.5GHz--- 1GHz, 258GIPS-487GIPS core_ccta: 1--- 8, 123GIPS-408GIPS 同时调整: 最高达571GIPS Zhibin Yu, Jing Wang, Lieven Eeckhout, and Chengzhong Xu, “QIG: Quantifying the Importance and Interaction of GPGPU Architecture Parameters”, IEEE Transactions on Computer-Aided Design of Integrated Circuits And System (TCAD). 2017. Vol.37, no.6, pp. 1211-1224, June 2018, CCF A
53. 软件定义云计算 提出并设计了软件定义云计算资源管理软件的架构 云服务 云服务 云服务 云服务 北向接口 控制平面 调度算法库 模 时空共享调度 南向接口 数据、配置、控制平面的分离 北向接口 平面之间可编程 配置平面 配置接口 拟 时空共享的任务调度框架 配置引擎 南向接口 数据平面 北向接口 南向接口 标签化硬件资源 器
54. 软件定义云计算 1. Chameleon: A Software defined cloud computing operating system. Submitted to SOSP2019 (没成功) 云服务 云服务 云服务 云服务 云服务 北向接口 控制平面 调度算法库 9. coPlane: A programmable control plane for cloud systems. 10. TPShare: A Time-Space Sharing Scheduling Abstraction for Next Generation of Shared Cloud via Vertical Labels. Accepted by ISCA2019. 时空共享调度 南向接口 北向接口 配置平面 配置接口 配置引擎 南向接口 数据平面 2. Z. Yu, Z. Bei, and X. Qian. Datasize-Aware High Dimensional Configurations Auto-Tuning of In-Memory Cluster Computing, in proceedings of architecture supported program language and operating system (ASPLOS 2018), pp.565577 3. Z. Bei, Z. Yu, N. Luo, C. Jiang, C. Xu, and S. Feng. Configuring inmemory Computing using Random forest. Future Generation Computer Systems, Volume 79, Part 1, February 2018. 4. Z. Bei, N.S. King, L. Eeckhout, and Z. Yu. OSC-BDF: An Online SelfConfiguring Big Data Framework, IEEE Transactions on Parallel and Distributed Systems (TPDS), 2018, third review 5. cfPlane: A programmable configuration plane for cloud systems. 北向接口 6. Z. Yu, W. Xiong, L. Eeckhout, Z. Bei, A. Mendelson, and C. Xu. MIA: Metric Importance Analysis for Big Data Workload Characterization. IEEE Transactions on Parallel and Distributed Systems (TPDS), 2018 南向接口 7. y. Lv, B. Sun, G. Zhang, X. Qian, J. Wang, Z. Yu. Counter Miner: Mining Big Performance Data from Hardware Counters, accepted by MICRO 2018. 标签化硬件 53 8. Q. Liu, Z. Yu. The Elasticity and Plasticity in Semi-Containerized Co-locating Cloud Workloads: a View from Alibaba Trace, accepted by SoCC2018.
55. 软件定义云计算 提出并设计与实现了时空共享的任务调度框架 各层调度器独立,无序 各层调度器统一,有序 标签 时空 共享调度 应用软件 调度器 应用软件 调度器 应用框架 调度器 应用框架 调度器 操作系统 调度器 操作系统 调度器 虚拟机管理器 调度器 虚拟机管理器 调度器 硬件 调度器 硬件 调度器
56. 控制平面进展 TPShare: A Time-Space Sharing Scheduling Abstraction for Shared Cloud via Vertical Labels (ISCA2019) Label messages: Temporal label messages ---- time Spatial label messages --- computing resources Temporal-spatial label messages ---- E.g., QPS
57. 控制平面进展 Co-run 13 Spark programs
58. 控制平面进展
59. 控制平面进展
60. 软件定义云操作系统-Chameleon
61. 软件定义云操作系统-Chameleon
62. 边缘计算一体机----Intelligent Ants 中科院引进杰出技术人才项目(百人计划B类)。 基于手机芯片研制成功了超低功耗、超低成本、超低空间、超 高密度计算平台。
63. 谢 谢!