|
|
课程简介:3 W O4 }$ ~5 f$ ^1 Y
强化学习,被誉为可能通向强人工智能的第三类机器学习方法,在AI游戏领域的应用已司空见惯,如自动玩flappy bird,借助强化学习玩星际争霸,最近非常火的王者荣耀也不例外;在无人驾驶、自动交易等领域也有着举足轻重的作用。
! ^' g, L* r6 a3 o! W9 y0 _' x《强化学习》课程,带你揭秘AlphaGo和星际争霸/王者荣耀,华尔街最热门的自动交易算法背后的技术及无人驾驶的关键点。3 M* X3 V* W( v3 ?
: ^; O! d! |+ R# {; S& l+ i
课程目录:
# [+ Y* [, j' d! `) V第1课 强化学习RL简介# u' U: @) j1 W6 T$ B! T) d5 F% ]
知识点1: 强化学习定义:可能通向强人工智能的第三类机器学习方法
& q P0 t" u$ z. a6 q ]知识点2: 强化学习数学模型:马尔科夫决策过程(MDP)) |9 H* R: g/ g3 c8 K3 s
知识点3: RL机器人:探索环境,规划自己的人生 Z0 x( |* Z! ?0 S8 ]# b$ o
知识点4: 强化学习基本算法分类
# Z+ |; p+ r/ j' `知识点5: Model-Based RL: 已知环境,如何优化自己的人生
. x* D5 x7 u* S g* p5 k' L/ M) L+ | Z0 R, x
第2课 Model—Free Learning
" P, U% ^" T; v6 C知识点1: 环境未知,如何评估测略(状态价值)' c, P5 s9 X" S/ ~& F6 v4 D
知识点2: 蒙特卡洛方法学习状态价值函数
: R( N+ H6 R0 G! g知识点3: TD方法学习状态价值函数
}. Y E! T/ P9 M* a实战项目: 两种方法比较及代码实现+ \: L, I6 Z1 q$ @9 A
知识点5: OpenAI Gym介绍; K8 e( _. j, z4 ~3 g8 X' u
8 X. s, G" h3 D3 [4 {第3课 Model-Free Control* K) _4 y, a4 U T% L% f% n" j
知识点1: ϵ− 贪婪策略:平衡 Exploration and Exploitation2 f( U9 C* v( h7 K6 q M D$ c
知识点2: on/off-policy 蒙特卡洛方法, ~, d/ N* Z, x- E- z; r
知识点3: on/off-policy TD 算法 (Sara)
' @- b; @' p5 j实战项目: on/off-policy 算法比较及代码实现
3 M H0 ]+ _5 n j5 u. f8 t
0 q* @$ s# d; \第4课 Q-Learning0 Y7 Q9 z+ _! j: x) ]( r9 `" j
知识点1: Q-Learning) `! a/ Z' H2 a( l6 q1 Q
知识点2: Deep Q-Learning* j8 m w& H2 i# p" O! d
实战项目: Q-learning解决山地车问题
6 k( ^8 u) E0 I; A8 b, F+ N! A1 C) m/ T' d9 l* w
第5课 策略梯度学习
9 x7 N" P$ S( {+ ^2 A; d/ I知识点1: 蒙特卡洛策略梯度% X1 j. d) R) i' H: E# u$ q
知识点2: Actor-Critic算法
' }$ g- f! B) z, x( B) O2 J1 e9 Q实战项目: 用policy gradient解决连续山地车的问题2 ^7 q0 T2 |9 p8 t
# B4 @$ q/ X7 p. B2 H8 N( m5 c5 ^第6课 TensorFlow强化学习应用案例
+ U) q6 [" G6 a7 s9 Y实战项目: 使用Deep Q network 和 Policy gradient完成以下游戏:强化学习乒乓球游戏、强化学习flappy bird% {/ I5 _6 ^) y* \) j
]& R P& `8 L7 F |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|