Downloads <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://img.shields.io/badge/license-CC%20BY--NC--SA%204.0-lightgrey" /></a>

蘑菇书EasyRL

李宏毅老师的《深度强化学习》是强化学习领域经典的中文视频之一。李老师幽默风趣的上课风格让晦涩难懂的强化学习理论变得轻松易懂，他会通过很多有趣的例子来讲解强化学习理论。比如老师经常会用玩 Atari 游戏的例子来讲解强化学习算法。此外，为了教程的完整性，我们整理了周博磊老师的《强化学习纲要》、李科浇老师的《世界冠军带你从零实践强化学习》以及多个强化学习的经典资料作为补充。对于想入门强化学习又想看中文讲解的人来说绝对是非常推荐的。

本教程也称为“蘑菇书”，寓意是希望此书能够为读者注入活力，让读者“吃”下这本蘑菇之后，能够饶有兴致地探索强化学习，像马里奥那样愈加强大，继而在人工智能领域觅得意外的收获。

贡献者

<table border="0"> <tbody> <tr align="center" > <td> <a href="https://github.com/qiwang067"><img width="70" height="70" src="https://github.com/qiwang067.png?s=40" alt="pic"></a><br> <a href="https://github.com/qiwang067">Qi Wang</a> <p>教程设计(第1~12章)<br> 上海交通大学博士生<br> 中国科学院大学硕士</p> </td> <td> <a href="https://github.com/yyysjz1997"><img width="70" height="70" src="https://github.com/yyysjz1997.png?s=40" alt="pic"></a><br> <a href="https://github.com/yyysjz1997">Yiyuan Yang</a> <p>习题设计&第13章 <br> 牛津大学博士生<br> 清华大学硕士</p> </td> <td> <a href="https://github.com/JohnJim0816"><img width="70" height="70" src="https://github.com/JohnJim0816.png?s=40" alt="pic"></a><br> <a href="https://github.com/JohnJim0816">John Jim</a> <p>算法实战<br> 北京大学硕士</p> </td> </tr> </tbody> </table>

使用说明

第 4 章到第 11 章为李宏毅《深度强化学习》的部分；
第 1 章和第 2 章根据《强化学习纲要》整理而来；
第 3 章和第 12 章根据《世界冠军带你从零实践强化学习》整理而来。

纸质版

推荐购买链接：京东 | 当当

<table border="0"> <tbody> <tr align="center" > <td> <img width="120" height="120" src="https://raw.githubusercontent.com/datawhalechina/easy-rl/master/docs/res/qrcode_jingdong.jpg" alt="pic"> <br> <p>推荐京东扫码购买</p> </td> <td> <img width="120" height="120" src="https://raw.githubusercontent.com/datawhalechina/easy-rl/master/docs/res/qrcode_dangdang.png" alt="pic"><br> <p>当当扫码购买</p> </td> </tr> </tbody> </table>

豆瓣评分：https://book.douban.com/subject/35781275/

[!IMPORTANT] 勘误修订表：https://datawhalechina.github.io/easy-rl/#/errata

在线阅读(内容实时更新)

地址：https://datawhalechina.github.io/easy-rl/

纸质版和PDF版的区别

PDF版本是全书初稿，人民邮电出版社的编辑老师们对初稿进行了反复修缮，最终诞生了纸质书籍，在此向人民邮电出版社的编辑老师的认真严谨表示衷心的感谢！（附：校对样稿）

内容导航

章节	习题	相关项目	配套代码
第一章强化学习基础	第一章习题
第二章马尔可夫决策过程 (MDP)	第二章习题		值迭代算法
第三章表格型方法	第三章习题	Q-learning算法实战	Q-learning，Sarsa，蒙特卡洛
第四章策略梯度	第四章习题		策略梯度
第五章近端策略优化 (PPO) 算法	第五章习题		PPO
第六章 DQN (基本概念)	第六章习题		DQN
第七章 DQN (进阶技巧)	第七章习题	DQN算法实战	Double DQN，Dueling DQN，PER DQN，Noisy DQN
第八章 DQN (连续动作)	第八章习题
第九章演员-评论员算法	第九章习题		A2C
第十章稀疏奖励	第十章习题
第十一章模仿学习	第十一章习题
第十二章深度确定性策略梯度 (DDPG) 算法	第十二章习题	DDPG算法实战	DDPG
第十三章 AlphaStar 论文解读
ICLR'25 Oral 强化学习玩MineCraft
视觉强化学习论文清单（Awesome Visual RL）
世界模型的本质

算法实战

算法实战部分包括附书代码和JoyRL代码：

经典强化学习论文解读

点击或者网页点击papers文件夹进入经典强化学习论文解读

扩展资源

对强化学习玩我的世界（Minecraft）游戏感兴趣的读者，可阅读 LS-Imagine
对视觉强化学习感兴趣的读者，可阅读Awesome Visual RL
对深度学习感兴趣的读者，可阅读李宏毅深度学习教程LeeDL-Tutorial

引用信息

王琦，杨毅远，江季，Easy RL：强化学习教程，人民邮电出版社，https://github.com/datawhalechina/easy-rl, 2022.
Qi Wang, Yiyuan Yang, Ji Jiang，Easy RL: Reinforcement Learning Tutorial，Posts & Telecom Press，https://github.com/datawhalechina/easy-rl, 2022.

@book{wang2022easyrl,
title = {Easy RL：强化学习教程},
publisher = {人民邮电出版社},
year = {2022},
author = {王琦，杨毅远，江季},
address = {北京},
isbn = {9787115584700},
url = {https://github.com/datawhalechina/easy-rl}
}

@book{wang2022easyrl,
title = {Easy RL: Reinforcement Learning Tutorial},
publisher = {Posts & Telecom Press},
year = {2022},
author = {Qi Wang, Yiyuan Yang, Ji Jiang},
address = {Beijing},
isbn = {9787115584700},
url = {https://github.com/datawhalechina/easy-rl}
}

如果您需要转载该教程的内容，请注明出处：https://github.com/datawhalechina/easy-rl。

致谢

特别感谢 @Sm1les、@LSGOMYP 对本项目的帮助与支持。

另外，十分感谢大家对于Easy-RL的关注。

关注我们

扫描下方二维码关注公众号：Datawhale，回复关键词“Easy-RL”，即可加入“Easy-RL读者交流群”

LICENSE

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://img.shields.io/badge/license-CC%20BY--NC--SA%204.0-lightgrey" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议</a>进行许可。

datawhalechina / easy-rl

AI Architecture Analysis

Embed this Badge

Repository Summary (README)