适读人群 :科学、工程、计算机科学或应用数学领域的研究生、本科生、研究人员和工程师。 本书的灵感来自强化学习(RL)与信息物理系统(CPS)领域近期的发展。强化学习植根于行为心理学,是机器学习的主要分支。与监督学习和无监督学习这样的机器学习算法不同,强化学习的主要特征是其独一无二的学习范式——试错法。通过与深度神经网络结合,深度强化学习变得非常强大,使得AI智能体能够以超人类的水平自动管理许多复杂的系统。此外,人们期望信息物理系统能够在不久的将来给我们的社会带来颠覆性改变,例如新兴智能建筑、智能交通和电网。
然而,信息物理系统领域的传统人工编程控制器,既不能处理日益复杂的系统,也不能自动适应它以前从未遇到过的新情况。如何应用现有的深度强化学习算法或开发新的强化学习算法以实现实时适应性信息物理系统?此问题仍然悬而未决。本书通过系统介绍强化学习领域的基础与算法,在两个领域之间建立起联系,并在每一部分列举了一个或几个*新的信息物理系统示例,以帮助读者直观地理解强化学习技术的实用性。
本书特色
介绍强化学习,包括强化学习领域的高级主题。
将强化学习应用到信息物理系统和网络安全。
每章都包含新的示例和练习。
用两个案例研究介绍网络安全问题。
本书适用于科学、工程、计算机科学或应用数学领域的研究生或大三/大四本科生,以及对于网络安全、强化学习和信息物理系统等领域感兴趣的研究人员和工程师。阅读本书的读者需要微积分和概率论的基础知识。
前 言
Reinforcement Learning for Cyber-Physical Systems: with Cybersecurity Case Studies
人工智能(Artificial Intelligence,AI)这一学科始创于1956年,经历了几次突飞猛进的发展,但每次都伴随着漫长的寒冬,也就是AI寒冬—其原因是计算能力的限制、硬件技术成本的提高、科研经费的缺乏等。而包括无线技术、信息技术和集成电路(IC)在内的其他技术,在此时期已经有了显著的进步并成为主流。从2010年开始,先进的计算技术、取自人们日常活动的大数据,以及机器学习、神经网络等人工智能研究子领域的整合,使社会风尚的主流转向人工智能研究及其广泛的应用。例如,谷歌DeepMind最近推出的人工智能围棋玩家AlphaGo Zero,可以在零人工输入的情况下实现超人类水平的性能。也就是说,这台机器可以从不了解任何围棋知识开始,通过与自己玩游戏成为自己的老师。AlphaGo的突破性成功表明,人工智能可以从一个“新生的婴儿”开始,学会自己成长,最终表现出超人类水平的性能,帮助我们解决现在和未来面临的最具挑战性的任务。
本书的灵感来自强化学习(RL)与信息物理系统(CPS)领域近期的发展。强化学习植根于行为心理学,是机器学习的主要分支。与监督学习和无监督学习这样的机器学习算法不同,强化学习的主要特征是其独一无二的学习范式—试错法。通过与深度神经网络结合,深度强化学习变得十分强大,使得AI智能体能够以超人类的水平自动管理许多复杂的系统。此外,人们期望CPS能够在不久的将来给我们的社会带来颠覆性改变,例如新兴智能建筑、智能交通和电网。然而,CPS领域传统的人工编程控制器,既不能处理日益复杂的系统,也不能自动适应它以前从未遇到过的新情况。如何应用现有的深度强化学习算法或开发新的强化学习算法以实现实时适应性CPS?此问题仍然悬而未决。本书通过系统介绍强化学习领域的基础与算法,在两个领域之间建立起联系,并在每一部分列举了一个或几个最新的CPS示例,以帮助读者直观地理解强化学习技术的实用性。我们相信,书中大量关于强化学习算法的CPS示例会对所有正在使用或将使用强化学习工具解决现实世界问题的人非常有益。
本书系统介绍强化学习和深度强化学习的关键思想和算法,并全面介绍CPS和网络安全。我们的目标是使所展示的内容易于机器学习、CPS或其他相关学科的读者理解。因此,本书不是一本严格意义上的专注于强化学习和CPS理论的书籍。此外,本书并不是对现有的可用强化学习算法的最新总结(因为文献数量庞大且发展迅速)。只有少数典型的强化学习算法被收录在本书中用于教学。
本书第一部分对强化学习、CPS和网络安全进行概要介绍。第1章介绍强化学习的概念和发展历史。第2章介绍CPS和网络安全的概念和框架。第二部分正式介绍强化学习的框架,并对强化学习问题进行定义,给出了两类解决方案:基于模型的解决方案和无模型的解决方案。为了使本书各部分内容独立,以便读者不必事先了解强化学习就可以很容易地理解每一个知识点,我们在本书中采用Sutton和Barto(1998)的经典强化学习书籍中的一些资料,而不是在书中提供索引让读者到他们的书中查看相关的算法和讨论。最后,我们用一章的篇幅介绍近年来发展极为迅速的新兴研究领域—深度强化学习。第三部分通过回顾现有的网络安全技术并描述新兴的网络威胁,将注意力转移到网络安全,其中这些新兴的网络攻击不是传统的网络管理方法能直接解决的。之后给出了两个案例研究,它们是基于(深度)强化学习解决这些新兴网络安全问题的典型案例。这两个案例基于哥伦比亚大学研究生的研究成果。这一部分旨在说明如何应用强化学习知识来描述和解决与CPS相关的问题。
本书适用于科学与工程领域的研究生或大三/大四本科生,这些领域包括计算机科学/工程、电气工程、机械工程、应用数学、经济学等。目标读者还包括与强化学习、CPS以及网络安全等领域相关的研究人员和工程师。读者所需的唯一背景知识是微积分和概率论的基础知识。
从某种意义上说,我们已经花了相当长的时间来为本书做准备。在过去的一年里,我们从哥伦比亚大学研究生和同事的反馈中受益匪浅。他们中的许多人对本书做出了重大贡献。在此特别鸣谢:Tashrif Billah(第1章),邱龙飞、曾毅、刘小洋(第2章),Andrew Atkinson Stirn(第3章),Tingyu Mao(第4章),张灵钰(第5章),颜祯佑(第6章),邱龙飞、刘小洋(第7章),Mehmet Necip Kurt、Oyetunji Enoch Ogundijo(第8章参考了他们的研究成果),胡晓天、胡洋(第9章参考了他们的研究成果)。我们还感谢Urs Niesen、Jon Krohn、张鹏、王振东和刘跃明对书稿的仔细审查和提出的建设性反馈。王振东和张磊贡献了本书第3、4、5章的练习。本书中的一些练习和示例是从一些(在线)大学课程中获取的,或由这些课程中的一些练习和示例修改而来,这些课程包括斯坦福大学的课程CS221和CS234、伯克利大学的课程CS294-129、卡内基–梅隆大学的课程10-701、伦敦大学学院的课程GI13/4C60、犹他大学的课程CS6300和华盛顿大学的课程CSE573。
最后,李崇博士非常感谢他的博士导师Nicola Elia。Elia教授对科学研究的严谨态度和方法,特别是他在最优反馈控制和信息理论方面令人印象深刻的见解,极大地影响了本书的写作方式。事实上,最优反馈控制一直被视为强化学习历史上的两条主要线索之一。而另一条线索来自动物学习心理学。本书是对反馈控制理论和反馈信息理论的长期思考和深入研究的直接成果。邱美康教授感谢他的研究小组成员盖珂珂教授和邱龙飞先生在将强化学习应用于网络安全方面的研究洞察力和奉献精神。我们相信由人工智能引领的新兴领域将从根本上改变世界、人类和整个宇宙。
Reinforcement Learning for Cyber-Physical Systems: with Cybersecurity Case Studies
出版者的话
译者序
前言
作者简介
第一部分 介绍
第1章 强化学习概述 2
1.1 强化学习综述 2
1.1.1 引言 2
1.1.2 与其他机器学习方法的比较 4
1.1.3 强化学习示例 6
1.1.4 强化学习应用 7
1.2 强化学习的发展历史 9
1.2.1 传统的强化学习 9
1.2.2 深度强化学习 11
1.3 强化学习的仿真工具 12
1.4 本章小结 13
第2章 信息物理系统和网络安全概述 14
2.1 引言 14
2.2 信息物理系统研究示例 16
2.2.1 资源分配 16
2.2.2 数据传输与管理 18
2.2.3 能源控制 18
2.2.4 基于模型的软件设计 19
2.3 网络安全威胁 20
2.3.1 网络安全的对手 20
2.3.2 网络安全的目标 21
2.4 本章小结 26
2.5 练习 26
第二部分 强化学习在信息物理系统中的应用
第3章 强化学习问题 30
3.1 多臂赌博机问题 30
3.1.1 ε-greedy算法 33
3.1.2 softmax算法 35
3.1.3 UCB算法 36
3.2 上下文赌博机问题 37
3.3 完整的强化学习问题 39
3.3.1 强化学习的要素 40
3.3.2 马尔可夫决策过程介绍 41
3.3.3 值函数 42
3.4 本章小结 45
3.5 练习 45
第4章 基于模型的强化学习 49
4.1 引言 49
4.2 动态规划 51
4.2.1 策略迭代法 52
4.2.2 价值迭代法 55
4.2.3 异步动态规划 56
4.3 部分可观察马尔可夫决策过程 58
4.4 连续马尔可夫决策过程 61
4.4.1 惰性近似 61
4.4.2 函数近似 62
4.5 本章小结 63
4.6 练习 64
第5章 无模型强化学习 66
5.1 引言 66
5.2 强化学习预测 66
5.2.1 蒙特卡罗学习 66
5.2.2 时序差分学习 69
5.3 强化学习控制 71
5.3.1 蒙特卡罗控制 71
5.3.2 基于时序差分的控制 72
5.3.3 策略梯度 77
5.3.4 actor-critic 81
5.4 高级算法 84
5.4.1 期望Sarsa 84
5.4.2 双Q-learning 85
5.5 本章小结 85
5.6 练习 86
第6章 深度强化学习 90
6.1 引言 90
6.2 深度神经网络 90
6.2.1 卷积神经网络 92
6.2.2 循环神经网络 94
6.3 深度学习在值函数上的应用 95
6.4 深度学习在策略函数上的应用 100
6.4.1 DDPG 102
6.4.2 A3C 104
6.5 深度学习在强化学习模型上的应用 107
6.6 深度强化学习计算效率 108
6.7 本章小结 109
6.8 练习 109
第三部分 案例研究
第7章 强化学习与网络安全 112
7.1 传统的网络安全方法 112
7.1.1 传统的网络安全技术 112
7.1.2 新兴网络安全威胁 113
7.2 强化学习在网络安全中的应用 114
7.2.1 移动群智感知中的虚假感知攻击 114
7.2.2 认知无线电网络中的安全强化 115
7.2.3 移动边缘计算中的安全问题 117
7.2.4 网络安全分析师的动态调度 118
7.3 本章小结 119
7.4 练习 119
第8章 案例研究:智能电网中的在线网络攻击检测 120
8.1 引言 120
8.2 系统模型和状态估计 122
8.2.1 系统模型 122
8.2.2 状态估计 123
8.3 问题描述 124
8.4 解决方案 127
8.5 仿真结果 130
8.5.1 仿真设计与参数设置 130
8.5.2 性能评估 130
8.6 本章小结 134
第9章 案例研究:击败中间人攻击 135
9.1 引言 135
9.2 强化学习方法 137
9.2.1 状态空间 137
9.2.2 行动空间 139
9.2.3 奖励 139
9.3 实验和结果 139
9.3.1 模型训练 140
9.3.2 在线实验 141
9.4 讨论 143
9.4.1 基于探测器的检测系统 143
9.4.2 运用SDN/OpenFlow使模型实用 144
9.5 本章小结 144
参考文献 145
索引 161