laodar吧 关注:23贴子:1,108
  • 97回复贴,共1

从生成模型的角度谈为什么ART是大脑必须具备的设计

只看楼主收藏回复

开坑先防吞


1楼2016-09-29 23:40回复
    疑问:
    1.在数据充分的今天,在线增量式的学习系统真的有必要吗?
    2.为什么有标签的情况下网络容易学得特征而无标签情况下并不能学得很好的特征?是否有CNN-autoencoder?
    3.encoder-decoder-discriminator是否缺一不可?encoder和decoder共用隐藏状态好(VAE)还是独立使用隐藏状态好(GAN)
    4.ART可以很好解释成人阶段的快速增量式学习,可在早期如何抵抗噪声的?为什么不会记忆大量噪声而快速耗尽神经表征?类似的,如果存在一个与A类完全不同的B类,但由于某些噪声的存在,偶然一次输入恰好在A类和B类之间,如果大脑还没成熟,无法通过学习好的TD注意力去噪,因此无法通过集中注意力来增强非噪声的内容,(即尚不能通过TD来稳定记忆),那么很可能会逐渐把A类和B类平均掉
    5.ART真的具备序列无关的稳定性吗?试想我们天天与父母接触,如果他们的脸总是变化微弱,那么按ART的工作机制,显然会造成我们回忆不起父母过去的脸,因为其表征的知识是持续更新的,只要没有太大变化,将一直覆盖过去的知识。但如果我们每隔好几年和父母见一次,那么按照ART,我们可能就会记住父母多个阶段的脸。


    2楼2016-12-30 21:38
    收起回复
      2025-06-05 00:22:21
      广告
      从粒子滤波的角度看待ART:
      每一个模板/表征记忆的权重归一化向量是一个高斯分布的均值,警戒度对应于方差(若非特异性核团求和时权重不等则是椭球型高斯分布),权重的模长对应高斯分布的积分。对输入的记忆表现为通过这些高斯分布来拟合数据分布。
      初始时,未观测任何数据,因此拟合的是均匀分布:各模板随机初始化,方差尽可能大(警戒度小),权重模长尽可能一样且小。
      学习:每输入一个样本,则可通过初始的先验分布结合该样本得到后验分布,由于更新前、后的分布均通过若干高斯分布拟合,则我们可以导出每个粒子的均值,方差,与强度的更新方程。
      粒子滤波中存在的一些问题:粒子聚集在一起需要剔除,有时需要新增粒子来达到拟合需求,甚至有时需要而且对粒子进行重新采样。
      ART的解决方法,前者引入竞争(防止粒子聚集,更像是每个类使用卡尔曼滤波),后者引入memory search,分配新的神经元,并记下新的输入(对应于新增粒子)
      问题1,如何衡量新输入的样本的噪音,以最小化对原始分布的负面影响但又能保证从中积累信息?是否有必要训练一个神经网络去根据输入去推断其可信度(方差)与真实值(均值,如denoise network)?这样我们才能保证分布既可以快速更新又能保证尽量不被噪声污染,达到ART所宣称的快速、增量、终身稳定的效果。


      来自Android客户端3楼2016-12-31 02:04
      回复
        连接因子图,belief propagation,粒子滤波(混合高斯滤波)与ART的桥梁是全局Liapunov能量函数:
        http://www.scholarpedia.org/article/Recurrent_neural_networks 中的eq33


        4楼2016-12-31 12:21
        收起回复
          近期需要解决的问题:
          1.这个动力学方程的能量函数到底长什么样??

          2.多层的ART的在位形空间中的能量曲面到底长什么样??
          3.ART自发形成的 SearchTrees的数学形式到底是什么样?虽然从直觉上我早就认同有这么回事,可到底是怎么保证能通过改变能量曲面以达到全局能量最小点呢?
          4.尝试将能量函数翻译成因子图,演化过程翻译成belief propagation,学习过程翻译成滤波,至于memory search暂不知道能对应什么,一种候选是Synthesis of MCMC and Belief Propagation


          5楼2016-12-31 14:15
          收起回复
            明明知道ART是对的,可就是找不到切入点


            6楼2017-01-13 16:16
            回复
              近期任务:尝试说明层级的GAN+AE与ART的等价性
              层级GAN+AE定义:每两层之间都使用encoder编码低层输入得到高层z,generator将z还原为低层输入,d判别低层激活是否真实。loss为所有层的GAN loss之和。
              由于e,g,d都只有两层,因此训练会退化成一些简单的运作过程。


              来自Android客户端7楼2017-01-20 00:53
              收起回复
                事实上GAN在使用D训练G时就隐式地实现了memory search,在记忆中为G生成的图片找到尽可能接近的解释,并提供“修正意见”(由D传给G的梯度信息),准确来说,D识别了G的输出,并且把它识别成与记忆中最像的那些样本(即使D努力地想防止误识别),而G就尽量把生成的图片往这些最像的样本靠近


                来自Android客户端8楼2017-01-20 01:12
                收起回复
                  2025-06-05 00:16:21
                  广告
                  卧槽,我可能找到了一个 loss可以解释ART的全部过程,综合ART与BP的优点。只需要CNN+DeCNN+SAE+soft attention,loss表达式有惊人的简洁美。
                  memory search,running as fast as it can,denoise by top down attention,fast、stable、online、generative、unsupervised learning,bp trainable
                  但要在search过程中加入reset还需要一些额外的设计
                  要理解本帖一脉相承的思想,需先理解http://tieba.baidu.com/p/4085085584 6L以后的回复


                  9楼2017-01-20 16:08
                  收起回复
                    @9L



                    10楼2017-01-20 17:44
                    收起回复



                      11楼2017-01-20 21:54
                      收起回复


                        IP属地:浙江12楼2017-02-09 23:47
                        收起回复
                          Lifelong Learning with Dynamically Expandable Networks
                          Jeongtae. Lee,Jaehong. Yun,Sungju. Hwang,Eunho. Yang


                          来自Android客户端14楼2017-08-08 17:53
                          收起回复