gym 环境解析:Pendulum-v0
倒立摆问题是控制文献中的经典问题。 在这个版本的问题中,钟摆以随机位置开始,目标是将其向上摆动,使其保持直立。
类型 :连续控制
state是最原始的环境内部的表示,observation则是state的函数。好比我们所看见的东西并不一定就是它们在世界中的真实状态,而是经过我们的大脑加工过的信息
奖励的精确等式:
在 和 之间归一化。因此,
最小代价是 ,
最高代价为0。
实质上,目标是保持零角度(垂直),旋转速度最小,力度最小。
从 和 的随机角度,以及-1和1之间的随机速度
没有指定的终止状态。 添加最大步数可能是个好主意。
目前尚未指定
先对 (x+pi)%(2*pi)-pi 进行分析,带入几个角度,比如 x=pi/4 , return=pi/4 ; x=3*pi/4 , return=3*pi/4 ; x=5*pi/4 , return=-3*pi/4 。这样我们就可以绘图如下[4]:
参考: