@8L简单来说就是,VIN plan模块直接迭代的是场,将reward扩散得到每个点的V值,并根据这个场来指导行为,因此将训练如何扩散,即状态转移矩阵的作用如何用神经网络来等价(grid world恰好对应CNN)。而DQN直接迭代的是某个状态的q,并不保证整个场被同步更新,其是用神经网络来拟合q(s,a),输入s,a,输出一实数q值。
值迭代是输入一个场,输出一个场。

8L的想法实际上是用神经网络的输出来拟合q(S,A)场
但事实上并不需要让神经网络输出成显式的q(S,A)场,只要再经过后续的神经网络,最终指导行为时表现得像是使用了显式的q(S,A)场一样就行。我们将期望q(s,a)是被稀疏编码的,即s,a的q值并不对应场中某一点的值,而是对应少数几个点的值的综合。