摘要:
强化学习旨在通过环境交互来学习最优策略,在围棋、Atari等游戏上获得成功,最近受到高度关注。由于面临未知环境,经典强化学习需要不断地探索环境、在环境中试错,从而学习高回报策略,因此依赖大量自主环境交互数据。从现有成功案例来看,强化学习突出表现的案例仍以虚拟环境为主,例如游戏、棋类等,可在计算机中高速推演来快速获得百万级以上的数据。而在物理环境中进行强化学习,产生如此大量的数据将造成高昂的时间和经济开销,因此在现实应用中发挥强化学习的能力还面临很大的障碍。为促进强化学习在现实应用中落地,我们尝试从多个角度提高强化学习方法的样本利用效率、降低样本需求。其中一个值得关注的方向是连接虚拟环境与物理环境,利用虚拟环境的低代价学习适应物理环境的策略。本次报告将汇报我们在虚拟环境迁移到物理环境、以及物理环境虚拟化两方面的一些探索。
报告人简历:
俞扬,博士,南京大学副教授。主要研究领域为机器学习、强化学习,目前研究集中于提升强化学习样本利用效率。分别于2004年和2011年获得南京大学计算机科学与技术系学士学位和博士学位,获2013年全国优秀博士学位论文奖、2011年CCF优秀博士学位论文奖。2011年8月加入南京大学计算机科学与技术系、机器学习与数据挖掘研究所(LAMDA)从事教学与科研工作。发表论文40余篇,包括多篇Artificial Intelligence、IJCAI、AAAI、NIPS等,获得5项国际论文和竞赛奖。