gym 环境解析:Pendulum-v0

倒立摆问题是控制文献中的经典问题。 在这个版本的问题中,钟摆以随机位置开始,目标是将其向上摆动,使其保持直立。

类型 :连续控制

state是最原始的环境内部的表示,observation则是state的函数。好比我们所看见的东西并不一定就是它们在世界中的真实状态,而是经过我们的大脑加工过的信息

奖励的精确等式:

在 和 之间归一化。因此,

最小代价是 ,

最高代价为0。

实质上,目标是保持零角度(垂直),旋转速度最小,力度最小。

从 和 的随机角度,以及-1和1之间的随机速度

没有指定的终止状态。 添加最大步数可能是个好主意。

目前尚未指定

先对 (x+pi)%(2*pi)-pi 进行分析,带入几个角度,比如 x=pi/4 , return=pi/4 ; x=3*pi/4 , return=3*pi/4 ; x=5*pi/4 , return=-3*pi/4 。这样我们就可以绘图如下[4]:

参考: