Dynamic Programming

2021-05-012021-05-31强化学习5 分钟读完 (大约792个字)

DP方法简介

由于其大量的计算损耗，已经不实用，但理论上非常重要。
本书后续的所有方法可以看做想要取得和DP类似的效果；只不过是减少了计算或者假设没有完美的环境模型。
假设解决的问题是有限的MDP，即给定动作a，状态s，和奖励r，可以通过\(p(s',r|s,a)\)描述动态变化。

笔记, Dynamic Programming