Kim_的瞬间

用户：Kim

2024-05-10 07:39:19 晴

1、马尔科夫转移过程，变成迭代过程。 2、桥梁贝尔曼方程 3、策略pai值,q值，value值，state值 4、迭代思路，且引入评估的期望方法 5、延伸出mc,sasra,td,q-learing迭代方式不同。 6、epslon改变迭代权重参数的不同 7、迭代差嫁接梯度，使用神经网络近似3中的值。 8、引入actor-critic迭代策略和q值。 9、场景理解，因为都有目标化这个过程就会有最优值。其他无非是迭代趋近这个目标。 >>阅读更多