东大人工智能分享会 强化学习

  • 612 浏览

tuoxie2046

2018/11/25 发布于 科学 分类

【标题】强化学习应用于机器人运动控制及运动技能学习 【内容】内容: 本期讲座主要介绍“强化学习应用于机器人运动控制及运动技能学习“该研究方向的发展过程与应用难点。包含以下主要内容:1. 什么是强化学习?为什么强化学习在机器人领域具有应用前景? 2. 介绍强化学习方法在机器人上运动控制方面的研究与应用;3. 介绍强化学习结合其他方法,在机器人上的研究与应用;4. 强化学习在机器人产业界的应用现状及难点。本期讲座还会介绍日本物流拾取行业的一家机器人公司 — Kyoto Robotics株式会社,并分享在该公司的实习经历。 【主讲】主讲人:王宇清,立命馆大学机器人专业硕士,从事强化学习在液压机器人运动控制方面的研究。曾在Kyoto Robotics公司从事工业机器人拾取方面的实习工作。现就职于Soft Servo Systems公司,从事工业机器人运动控制软件的开发工作。 【时间】11月23号晚19:30 【地点】东大本乡工学部9号馆一楼大会议室 过去相关讲座链接: 东大N号馆第二期--人工智能近况汇报 https://zhuanlan.zhihu.com/p/46435330 “东大N号馆”第四期——中国无处不在的AI https://zhuanlan.zhihu.com/p/44048677 “东大N号馆”第五期——AI与口腔医学 https://zhuanlan.zhihu.com/p/45686356 “东大N号馆”第六期——深度学习发展近况 https://zhuanlan.zhihu.com/p/47099635 东大N号馆第7期-基于语音和图像的人机交互 https://zhuanlan.zhihu.com/p/47982696 东大N号馆第8期-自然语言处理技术及其在金融领用的应用 https://zhuanlan.zhihu.com/p/50034016

人工智能  深度学习  机器人 

文字内容
1. 强化学习在机器人运动控制方面的研究与应用 & Kyoto Robotics株式会社的介绍 及 实习经历分享 王宇清
2. 流程 1. 强化学习在机器人运动控制及动作技能方面的研究发展与应用 2. Kyoto Robotics株式会社的介绍 及 实习经历分享 3. Soft Servo株式会社的简介 4. : 交流 讨论 关键词: 强化学习,机器人拾取,机器人运动控制,机器人动作技能
3. 强化学习实例 小孩学走路
4. 什么是强化学习 强化学习是一种目标导向的学习。智能体在没有先验信息的情况下,通过与环境交互探索的方式,观 测反馈得到的结果,从而对未知的环境进行了解,并找到达到目标的最佳控制方法。 Wiki: 强化学习强调如何基于环境而行动,以取得最大化的预期利益。 强化学习的例子 智能体 agent: 老⿏ 环境(未知): 由各种障碍物(光线,报警器,捕鼠器)构成; 行动:以避开所有障碍物的动作序列; 行动反馈: 未成功避开障碍物 >> 惩罚 (-) ⚡ 成功避开障害物 >> 奖励 (+) 食物 学习的目的: 尽可能少的得到惩罚⚡; 尽可能多的得到报酬 食物; 老鼠通过试错探索的方式,得以熟悉环境中障碍物的位置和信息; 最后:老鼠可以找到一条避开环境中所有障碍物的最优路径;
5. 机器人的定义?机器人由哪几部分组成的?
6. 比较 机器人 与 强化学习 动作出 机器人控 制系统 环境 task 信息进 机器人的本质: 信息进,动作出 环境 task 强化学习原理图
7. 机器人实际应用的难点 仿真 理想模型 仿真不可能包含全部物理 (内在,外在)世界中的信息。 传感器 测量误差; 测量世界环境信息的精准度不足。 处理器 误差的累积; 计算机的处理速度无法 满足机器人对实时性的 要求。 驱动器 响应延时;传动过程中的 能量损失;摩擦力 发热等 问题。
8. 机器人实际应用的难点 模型误差 输入信号 机器人动力学模型 理想输出 实际输出 误差
9. 强化学习在机器人(实机)上应用的难点 1. 在机器人实机上找到最佳的方策(policy,控制方法)往往需要训练几百 上千次,会对机器人硬件平台造成非常大的损害。 Actor Critic 40,000次 2001年 TD learning 43,000步 2012年
10. PILCO 概率推测的学习控制 PILCO (Probabilistic Inference for Learning COntrol / 概率推测的学习 控制 ) 是近年来,在实际机器人上高效(训练次数较少)的强化学习算法。 比较典型的RL方法在倒立摆平衡的学习次数 ⽅法 動的計画法 actor critic PI2 PILCO 試⾏回数 70 800 100 5
11. PILCO算法在机器人的应用实例 PILCO主要的研究成果在电驱动机械臂物体抓取方面。 Learning object grasping Learning object picking
12. PILCO算法的流程 初始化 更新机器人的 的动力学模型 (by 高斯过程) one trial 更新 控制器 for ( int i =1; i<150; i++) { 将高斯过程离散化 长期预测 更新控制器(RBF网络)参数 } 参数收敛 在机器人上测试policy的效 果, 得到新的数据
13. 高斯过程 ( Gaussian Process ) 学习动力学模型 (系统辨识) 高斯过程,是一系列关于连续时间的随机变量的联合,而且针对每一个时间点上的随机变量都是服 从高斯分布的。
14. PILCO算法的流程 初始化 更新机器人的 的动力学模型 (by 高斯过程) 試⾏ 更新 控制器 for ( int i =1; i<150; i++) { 长期预测 更新控制器(RBF网络)参数 } 参数收敛 在机器人上测试policy的效 果, 得到新的数据
15. 长期预测 步骤1 确定每一个离散时刻的高斯分布 当前机器人状态与控制信号的概率分布 ?????? ?????? GP模型 ?????? ?????? ?????? ?????? 伝播 moment matching将⾮高斯分布 近似成 高斯 分布?????? ∆
16. 长期预测 示意图 椭圆的面积大小反映概率分布
17. 强化学习 液压机器人 瞬时功率大 负载能力强 液压机器人的非线性远远强于电驱动机器人,所以液压机器人的系统识别与控制难度很大。 研究的出发点,PILCO强化学习方法能否对液压机器人的动力学系统识别与控制带来提高。
18. 强化学习实验平台液压双臂机器人
19. 强化学习 机器人运动控制: 无电机 机器人关节角运动范围: 0 ?????? ?????? 0 ?????? 2 ∗ ??????⁄3
20. Introduce to length scale L in Hyper-parameter 超参数: 参数(to learn)的参数,用来确定神经网络特征的参数。 Big length scales will be less variation in the function values, the function look close to linear. Small length scales makes functions GP vary strongly, it will be able to fit many more data sets.
21. 问题2 神经网络控制器计算时间不定 导致通信周期不稳定 设定的通信周期
22. 问题3 角速度信号 角度 角速度
23. 强化学习 x 机器人运动控制: 1. 大量训练数据; 2. 根据经验手动设置超参 数为常量; 3. 不考虑速度项,只考虑 角度; 4. 延长观察向量长度。
24. 强化学习的局限性,接触力 接触力的情况并不容易学习动力学模型; 进行了80-100次实验后的效果
25. 强化学习 机器人运动轨迹规划:
26. 强化学习 机器人运动轨迹规划: robot self learning
27. 模仿学习 >> 强化学习 x 机器人: 运动轨迹规划
28. 模仿学习 + 强化学习 x 机器人: 运动轨迹规划
29. 强化学习 机器人运动轨迹规划: Rollout 100 times
30. 机器人动作学习: 方法B 深度强化学习 视觉输入 -> 动作输出
31. 机器人动作学习: 方法B 深度强化学习 视觉输入 -> 动作输出
32. 人工示教 (AR & 触觉, 主机) + 深度强化学习 (副机) 人工示教 AR + 触觉传感器 远程实时操控机 器人抓取物体, 收集数据集 机器人基于人工示 教的数据集,再进 行物体抓取技能的 学习 实时控制
33. 强化学习在日本业界的应用情况 ‒ 食品行业 建设行业 通过图像对液压关节位置进行推定,再进行控制 在机器人平台上利用深度强化学习对Pasta进行抓取动作的学习。 输出信号的学习。
34. 强化学习在日本业界的应用情况 ‒ 制造业 IoT 参考 ロボットと AI による 新⽣産システムの開発と量産適⽤
35. 接地气: 强化学习在汽车发动机活塞控制的应用
36. 强化学习在机器人的局限性 1. 通常没有考虑到policy控制器的安全性和稳定性,精准度上也 难以达到产品落地的要求。 2. 泛化性低,只能适应学习过的情况。对未知的情况,再次学习 往往非常困难。 3. 与传统的机器人学方法相比,没有体现出明显的效果优势,成 本反而增加了很多。
37. “强化学习应用于机器人运动控制”相关学习资料分享及研究进展跟踪 Conference of Robot Learning ( Youtube上有学会的完整视频 ) Mathematics for Machine Learning: https://mml-book.github.io/ 结论: Reinforcement Learning can help control and optimize some systems that other methods cannot.
38. Kyoto Robotics 公司介绍及实习经历分享 工业机器人视觉传感器 物流拾取机器人系统示意图
39. 公司发展经历
40. 公司主要产品介绍 --- 针对物流拾取机器人的视觉传感器 第三代视觉传感器 TVS 3 第四代视觉传感器 TVS 4
41. 针对市场 ̶ 物流拾取
42. 三维检测技术
43. 图像处理技术 实例
44. 机器人系统
45. 难点 箱子的质量与重心未知 >> 无法确定机器人抓取时的力
46. 常见的办法: 在机器人末端加装气压吸盘 目前的办法 气压吸盘 + 6轴力觉传感器 6轴力觉传感器 气压吸盘
47. We propose a new system with F/T sensor 6轴力觉传感器 气压吸盘 重物
48. Introduction the load identification task Ignore the robot coordinate part, only consider f/t sensor, gripper and payload(box).
49. 步骤 1: 标定力觉传感器 步骤1,我们需要估计: 力觉传感器的重量, 重心,与传感器初始偏差值 步骤 2: 实时估计箱子的重量 步骤2 : 消除力觉传感器的影响,测量箱子重量与重心。
50. 实习信息
51. Soft Servo Systems公司简介 及 “基于PC的运动控制” 介绍
52. 通常的机器人控制系统的组成 机器人控制系统 可以分为控制 与 驱动 两部分。 控制 上层的作业空间的运动规划; 中层 关节层面的运动控制; 驱动 关节的电机的转动;
53. 公司业务
54. 运动控制软件架构 上层 (用户层) 中层 (内核) 底层 (通信层) 控制装置app (用户自定义) 运动控制软件工具 (用户自定义) 网络管理工具 (用户自定义) 运动控制API 网络管理API Windows 内核 CPU 50% RTX 实时运动控制 子系统 1. 运动控制计算 2. EtherCAT通信层 3. 网络适配器或网卡的驱动 网络适配器,网卡 机械设备上的电机driver 软件架构示意图
55. 主要客户及合作方 主 PC 工厂自动化 主要客户: 三星,华为,鸿海 工业机器人本体制造商 电机制造商