Finite Markov DecisionProcesses

2021-03-242021-05-31强化学习11 分钟读完 (大约1665个字)

Agent和Environment的交互

学习者和决策者称为agent。
agent交互的对象，外部环境，称为Environment。
在时刻t，agent的所处的环境用状态：\(S_t \in S\)表示，\(S\)是可能的状态集。假设agent采用了动作\(A_t\in A(S_t)\)，\(A(S_t)\)代表在状态\(S_t\)下可能的动作集。
到了下一个时刻t+1，agent收到了一个奖励：\(R_{t+1} \in R\)，并且发现自己处在一个新的state中：\(S_{t+1}\)。