用户:Kim

    1、马尔科夫转移过程,变成迭代过程。 2、桥梁 贝尔曼方程 3、策略pai值,q值,value值,state值 4、迭代思路,且引入评估的期望方法 5、延伸出mc,sasra,td,q-learing迭代方式不同。 6、epslon改变迭代权重参数的不同 7、迭代差嫁接梯度,使用神经网络近似3中的值。 8、引入actor-critic迭代策略和q值。 9、场景理解,因为都有目标化这个过程就会有最优值。其他无非是迭代趋近这个目标。 >>阅读更多