laodar吧 关注:22贴子:1,108
  • 49回复贴,共1

SOVEREIGN讨论帖

只看楼主收藏回复

视频来自:爱奇艺


IP属地:浙江1楼2016-11-28 22:33回复
    好久不见。最近在玩强化学习,自己写的不管是tabluar的还是NN参数化的Q-learning效果都好差,不管怎么调参数,在OpenAI gym里的'MountainCar-v0'这么简单的任务中都要好久才能取得较好的表现。难道是因为'MountainCar-v0'这个任务低谷吸引子太厉害?一般探索很难通关?


    2楼2016-11-28 22:55
    收起回复
      图1


      IP属地:浙江3楼2016-11-29 15:53
      回复
        图2


        IP属地:浙江4楼2016-11-29 15:54
        回复
          图3


          IP属地:浙江5楼2016-11-29 15:54
          回复
            图4


            IP属地:浙江6楼2016-11-29 15:56
            回复

              图5,就这个没看懂,根据ARTSCAN,motivation的不是从ita那里开始吗,很明显那是what线路,where只是reset作用。但这里为什么会是what与where decision,不是应该只有what decision吗,这个与ARTSCAN不符合啊


              IP属地:浙江7楼2016-11-29 16:01
              收起回复
                正式问题
                1 VAM Learning是什么
                2 图2中的parvo和magno应该对应视网膜的大小细胞吧,左边是小,右边是大,图上标的很清楚,那中间的呢?
                3 错误修改:2.5.4节内的2.7.3打印错误,应该是2.5.7。(应该是这样吧,我没理解错吧)
                4 Drive representation为什么要放大parvo的信号
                5 ART1,2,3是什么?
                6 这里我们看到大多数网络全是以“对偶极子”出现的,为什么要这么设计,就不谈motivation里的必要性了,以前ARTSCAN里也是,从LGN开始就是了。
                7 7楼中已提


                IP属地:浙江8楼2016-11-29 16:09
                收起回复
                  这个模型应该可以看成ts+mv+dv+artscan的缩小版


                  IP属地:浙江来自Android客户端9楼2016-11-29 23:34
                  回复

                    图上细小的红线指出的就是放大parvo的根源,原文的意思大体是这样的:incentive motivational signal放大了GOp信号,目的是增大parvo的输入信号,incentive motivational signal就是drive那里的。


                    IP属地:浙江10楼2016-11-30 22:58
                    回复
                      出现了几个新问题
                      1.图2的parvo是走what路线,那mango走的什么?中间的是where路线,那它属于parvo还是mango,另外如何从这个图中看出ARTSCAN的对应的部件?
                      2.mango路线中开始的是ubdirectional transient cell,这个作者在式子里表示的是bij,把它输入给一个directiional中间神经元,这个作者用式子表示的是cij_R/L(左右还互相伤害),很明显到这个变成了左右两个,这让人联想到了双目的左右,但很明显这里开始输入的就是单目的图hij,输入顺序是hij-》bij-》cij_R/L,那么这里的分成左右该怎么很好的解释呢?
                      @ieBugH


                      IP属地:浙江11楼2016-12-08 17:57
                      收起回复
                        3.Motor Working Memory and Planning System,这个是motor的motivationally-reinforced,也就是说motivation有两个,一个是目标物的,一个是motor的,那么这个motor的motivation是否对照telos下面的BG那块?


                        IP属地:浙江13楼2016-12-08 19:24
                        收起回复