vedal吧 关注:275贴子:1,900

回复:不想当Vedal的蜂不是好蜂

取消只看楼主收藏回复

参考了一下别人的代码,下一步应该是放弃attention padding mask和采用rope和grouped attention


IP属地:广东来自Android客户端25楼2024-08-21 10:23
收起回复
    更新:
    还是手痒去练自己的模型了。体验了一下Qwen2的中小型指令微调模型,一个token要好几秒钟,属实难顶。
    Llama的RoPE和SiLU属实牛逼的,600多步能把loss练到个位数。之前用GPT2的位置嵌入不仅浪费显存,练了1000步loss才到这个水平。


    IP属地:广东来自Android客户端26楼2024-08-23 00:29
    回复
      我去4090也太生猛了,两三个小时把loss给我干到0.0几去了


      IP属地:广东来自Android客户端27楼2024-08-24 00:15
      回复
        光顾着更新B站动态,差点忘了这个帖子了。。。
        事实证明这么低的loss是个错误。我在算法里漏掉了一个转置操作,导致把标准答案漏出去了。于是AI马上学会了抄答案并获得了几乎满分的成绩(0.05的loss)。
        更新现状:


        IP属地:广东29楼2024-08-25 22:59
        收起回复

          这是我漏掉的转置操作,它用于把时间维度和注意力头维度交换,然后会有代码将时间维度中未来的部分遮住让模型预测。因为缺失了这一步,未来的数据(也就是标准答案)就直接给模型“注意”到了


          IP属地:广东30楼2024-08-25 23:02
          回复
            byd运营商


            IP属地:广东来自Android客户端31楼2024-08-26 22:28
            回复
              更新:

              模型规模还是太小,喂的数据也太杂乱。后续更新大概是扩大模型规模+选择更好的数据


              IP属地:广东32楼2024-08-28 18:46
              回复

                bro的神志不是很清醒


                IP属地:广东33楼2024-08-30 23:21
                回复
                  有点意思


                  IP属地:广东来自Android客户端34楼2024-08-31 23:35
                  收起回复
                    继续拉大规模,这次参数量到了200M左右。我准备了200G的数据(参考babyllama,这次选了悟道数据集),看看这次行不行。已经开学了更新会比较少,但这个项目不会轻易结束。


                    IP属地:广东来自Android客户端36楼2024-09-04 22:59
                    回复

                      我觉得自己是一只"没有意识"的苍蝇 ——MiniLM


                      IP属地:广东38楼2024-09-06 23:51
                      收起回复
                        总得来说,我现在成功获得了一个性能还说得过去的底模。要让它变成neuro这样的ai主播,我还需要语音识别和语音生成、皮套以及动作控制、相关语料收集与微调。最烧钱的时期暂时已经过去,起码不需要租两块4090了(


                        IP属地:广东来自Android客户端39楼2024-09-09 23:55
                        回复
                          我发现模型已经大到我完全没有办法在我自己的机器上进行全参数微调(孩子大了养不起了()
                          但是对一个200M的微型模型动用LoRA又觉得有点不合适,额外参数多了练不了,少了没效果。。。
                          我估计还是会先试试LoRA,就当再学一个新技术吧


                          IP属地:广东来自Android客户端40楼2024-09-12 01:37
                          回复

                            好好好这么会说话是吧
                            最终也没有使用LoRA,而是选择性地只训练最后几层,但是看来效果不是很行


                            IP属地:广东41楼2024-09-16 23:26
                            回复
                              最近在读RWKV的论文。无限上下文长度和恒定的内存占用真的很香,也许可以用它代替现在minilm的transformer核心


                              IP属地:广东来自Android客户端47楼2024-09-22 14:09
                              回复