Finite Markov DecisionProcesses

Agent和Environment的交互

  • 学习者和决策者称为agent
  • agent交互的对象,外部环境,称为Environment
  • 在时刻t,agent的所处的环境用状态:\(S_t \in S\)表示,\(S\)是可能的状态集。假设agent采用了动作\(A_t\in A(S_t)\)\(A(S_t)\)代表在状态\(S_t\)下可能的动作集。
  • 到了下一个时刻t+1,agent收到了一个奖励:\(R_{t+1} \in R\),并且发现自己处在一个新的state中:\(S_{t+1}\)