grid-world example
一个由多个格子组成的二维网格
三种格子:accessible可通行的; forbidden禁止通行的; target目标
state状态
state是智能体相对于环境的状态(情况)
在grid-world example里,state指的就是智能体所在的位置,每个格子代表一个state,。所有的state组成的集合(空间)为state place状态空间,
action行动
向上移动(Up) 向右移动(Right) 向下移动(Down) 向左移动(Left) 原地不动(Stay unchanged)
一个state的所有可能行动组成的集合为action space of a state状态的行动空间
state transition
在状态,选择行动
,则有
state transition实际上定义了一种智能体和环境交互的行为
forbidden area
本课程中,对于forbidden area,我们认为是可以进去的,但是进入要受到惩罚(accessible but with penalty)
tabular representation
缺点是只能表示确定性
state transition probability
为在状态 s 执行动作 a 后转移到状态 s′ 的概率
条件概率可以描述 deterministic确定性 和 stochastic随机性 的例子
policy策略
策略是智能体在某个状态下选择动作的规则(策略告诉智能体在状态下要选择什么行动)
基于policy可以得到一些path或者trajectory(轨迹)
强化学习里指的是策略(条件概率),例如针对状态
,
这是一个deterministic policy(确定性策略)
当然也有stochastic policy(不确定性策略),例如:
policy也可以用tabular representation
实际情况下,用代码进行随机采样,来执行随机性的policy
参考文章
S. Zhao. Mathematical Foundations of Reinforcement Learning. Springer
Nature Press, 2025.
【【强化学习的数学原理】课程:从零开始到透彻理解(完结)】 https://www.bilibili.com/video/BV1sd4y167NS/?p=2&share_source=copy_web&vd_source=52164f68a5f27ac2e86f0e7963ea966c