网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
可签
7
级以上的吧
50
个
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
02月19日
漏签
0
天
vedal吧
关注:
275
贴子:
1,900
看贴
图片
吧主推荐
玩乐
首页
上一页
1
2
3
下一页
尾页
42
回复贴,共
3
页
,跳到
页
确定
<返回vedal吧
>0< 加载中...
回复:不想当Vedal的蜂不是好蜂
取消只看楼主
收藏
回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
参考了一下别人的代码,下一步应该是放弃attention padding mask和采用rope和grouped attention
IP属地:广东
来自
Android客户端
25楼
2024-08-21 10:23
回复(2)
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
更新:
还是手痒去练自己的模型了。体验了一下Qwen2的中小型指令微调模型,一个token要好几秒钟,属实难顶。
Llama的RoPE和SiLU属实牛逼的,600多步能把loss练到个位数。之前用GPT2的位置嵌入不仅浪费显存,练了1000步loss才到这个水平。
IP属地:广东
来自
Android客户端
26楼
2024-08-23 00:29
回复
收起回复
远播教育
国际预科学校—深圳早期开办的国际预科课程,全美式中学教育的国际学校。深圳国际预科学院SIFC旨在全面提升学生的综合素质。招生咨询中
2025-02-19 14:55
广告
立即查看
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
我去4090也太生猛了,两三个小时把loss给我干到0.0几去了
IP属地:广东
来自
Android客户端
27楼
2024-08-24 00:15
回复
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
光顾着更新B站动态,差点忘了这个帖子了。。。
事实证明这么低的loss是个错误。我在算法里漏掉了一个转置操作,导致把标准答案漏出去了。于是AI马上学会了抄答案并获得了几乎满分的成绩(0.05的loss)。
更新现状:
IP属地:广东
29楼
2024-08-25 22:59
回复(3)
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
这是我漏掉的转置操作,它用于把时间维度和注意力头维度交换,然后会有代码将时间维度中未来的部分遮住让模型预测。因为缺失了这一步,未来的数据(也就是标准答案)就直接给模型“注意”到了
IP属地:广东
30楼
2024-08-25 23:02
回复
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
byd运营商
IP属地:广东
来自
Android客户端
31楼
2024-08-26 22:28
回复
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
更新:
模型规模还是太小,喂的数据也太杂乱。后续更新大概是扩大模型规模+选择更好的数据
IP属地:广东
32楼
2024-08-28 18:46
回复
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
bro的神志不是很清醒
IP属地:广东
33楼
2024-08-30 23:21
回复
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
有点意思
IP属地:广东
来自
Android客户端
34楼
2024-08-31 23:35
回复(2)
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
继续拉大规模,这次参数量到了200M左右。我准备了200G的数据(参考babyllama,这次选了悟道数据集),看看这次行不行。已经开学了更新会比较少,但这个项目不会轻易结束。
IP属地:广东
来自
Android客户端
36楼
2024-09-04 22:59
回复
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
我觉得自己是一只"没有意识"的苍蝇 ——MiniLM
IP属地:广东
38楼
2024-09-06 23:51
回复(1)
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
总得来说,我现在成功获得了一个性能还说得过去的底模。要让它变成neuro这样的ai主播,我还需要语音识别和语音生成、皮套以及动作控制、相关语料收集与微调。最烧钱的时期暂时已经过去,起码不需要租两块4090了(
IP属地:广东
来自
Android客户端
39楼
2024-09-09 23:55
回复
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
我发现模型已经大到我完全没有办法在我自己的机器上进行全参数微调(孩子大了养不起了()
但是对一个200M的微型模型动用LoRA又觉得有点不合适,额外参数多了练不了,少了没效果。。。
我估计还是会先试试LoRA,就当再学一个新技术吧
IP属地:广东
来自
Android客户端
40楼
2024-09-12 01:37
回复
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
好好好这么会说话是吧
最终也没有使用LoRA,而是选择性地只训练最后几层,但是看来效果不是很行
IP属地:广东
41楼
2024-09-16 23:26
回复
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
最近在读RWKV的论文。无限上下文长度和恒定的内存占用真的很香,也许可以用它代替现在minilm的transformer核心
IP属地:广东
来自
Android客户端
47楼
2024-09-22 14:09
回复
收起回复
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧热议榜
1
美俄背着乌克兰偷偷和谈
2608350
2
Doran内涵老东家伙食差劲
2131703
3
周星驰为哪吒2疯狂打call
1733424
4
U20国足憾负袋鼠但成功出线
1503819
5
iPhone17或采用钛合金边框
1294670
6
我们喊难的深渊是紧急削过的
995075
7
哪吒2登顶动画电影票房榜
862584
8
美俄关系回暖中国怎么办
802608
9
女同事让我把女朋友让给她
670186
10
iPhone17这次要来点不一样的
545517
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示