laodar吧 关注:23贴子:1,108
  • 42回复贴,共1

[脑洞]基于联想/注意力扩散的问题求解

只看楼主收藏回复

1L防度娘


1楼2016-09-29 10:28回复


    3楼2016-09-29 10:32
    回复
      2025-06-05 03:11:41
      广告
      关于running as fast as it can的来源:
      http://cns-web.bu.edu/Profiles/Grossberg/GroCisek2007.pdf
      段落Feedforward and Feedback, Speed and Uncertainty, Digital and Analog


      4楼2016-09-29 21:32
      收起回复
        Hopfield J J. Searching for memories, Sudoku, implicit check bits, and the iterative use of not-always-correct rapid neural computation.[J]. Neural Computation, 1989, 20(5):1119-64.
        https://arxiv.org/ftp/q-bio/papers/0609/0609006.pdf


        5楼2016-10-09 22:39
        回复
          value iteration networks
          https://arxiv.org/pdf/1602.02867v2.pdf
          A neuromorphic model of spatial lookahead
          http://cns.bu.edu/Profiles/Grossberg/IveBulGro2011.pdf


          6楼2016-12-14 21:33
          回复
            一个很自然的问题就是:难道我们真的要像VIN或者spatial lookahead那样为每一个状态分配一个local编码来做值迭代(扩散)吗?
            如果迭代的目的是更新q/V场,而这个场的目的是算某个状态下动作的价值,我们当然可以用分布式表征来参数化q/V场,再和动作一起输入到另一个神经网络,输出价值。迭代的每一个“像素”并不需要只表示一个状态的q/V值。


            来自Android客户端8楼2017-01-07 21:06
            收起回复
              @8L
              简单来说就是,VIN plan模块直接迭代的是场,将reward扩散得到每个点的V值,并根据这个场来指导行为,因此将训练如何扩散,即状态转移矩阵的作用如何用神经网络来等价(grid world恰好对应CNN)。而DQN直接迭代的是某个状态的q,并不保证整个场被同步更新,其是用神经网络来拟合q(s,a),输入s,a,输出一实数q值。
              值迭代是输入一个场,输出一个场。

              8L的想法实际上是用神经网络的输出来拟合q(S,A)场
              但事实上并不需要让神经网络输出成显式的q(S,A)场,只要再经过后续的神经网络,最终指导行为时表现得像是使用了显式的q(S,A)场一样就行。我们将期望q(s,a)是被稀疏编码的,即s,a的q值并不对应场中某一点的值,而是对应少数几个点的值的综合。


              9楼2017-01-07 22:12
              收起回复
                这个想法已经卡在我脑里好几年了,一直没静下心来深入探索,等我最近论文弄完一定把这个摆在第一位。


                来自Android客户端10楼2018-06-18 01:52
                收起回复
                  2025-06-05 03:05:41
                  广告

                  为什么Aπ展开后Es’~P就没了呢?Es’~P对应等号里面是要对s(t+1)加权求和的,怎么就没了呢


                  IP属地:浙江11楼2018-06-25 13:03
                  收起回复
                    来自Android客户端12楼2018-09-10 00:11
                    回复
                      为什么人类能够通过直觉联想快速提出候选解而不用序列地遍历解空间的每一个点?
                      狗在复杂地形中是否能通过思考来进行路径规划?


                      来自Android客户端13楼2018-09-10 00:27
                      回复(3)
                        https://arxiv.org/pdf/1906.00855.pdf
                        Deep Reasoning Networks:Thinking Fast and Slow


                        14楼2020-08-13 21:38
                        回复