探索策略
当然,只有在探索策略充分探索 MDP 的情况下,Q 学习才能起作用。尽管一个纯粹的随机策略保证最终访问每一个状态和每个转换多次,但可能需要很长的时间这样做。因此,一个更好的选择是使用 ε 贪婪策略:在每个步骤中,它以概率ε
随机地或以概率为1-ε
贪婪地(选择具有最高 Q 值的动作)。ε 贪婪策略的优点(与完全随机策略相比)是,它将花费越来越多的时间来探索环境中有趣的部分,因为 Q 值估计越来越好,同时仍花费一些时间访问 MDP 的未知区域。以ε
为很高的值(例如,1)开始,然后逐渐减小它(例如,下降到 0.05)是很常见的。
可选择的,相比于依赖于探索的可能性,另一种方法是鼓励探索策略来尝试它以前没有尝试过的行动。这可以被实现为附加于 Q 值估计的奖金,如公式 16-6 所示。
其中:
N
计算了在状态s
时选择动作a
的次数f
是一个探索函数,例如f=q+K/(1+n)
,其中K
是一个好奇超参数,它测量智能体被吸引到未知状态的程度。