网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
可签
7
级以上的吧
50
个
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
02月16日
漏签
0
天
vedal吧
关注:
274
贴子:
1,879
看贴
图片
吧主推荐
玩乐
首页
上一页
1
2
3
4
下一页
尾页
105
回复贴,共
4
页
,跳到
页
确定
<返回vedal吧
>0< 加载中...
回复:不想当Vedal的蜂不是好蜂
只看楼主
收藏
回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
现在还得等,先把长期计划发一下:
微型(1B以下)模型:可行性验证
中型规模(7B?)模型以及基于transformer的tts/语音识别:复刻neuro
直接基于语音的语音模型:超越neuro(幻想时间)
IP属地:广东
来自
Android客户端
19楼
2024-08-16 19:06
回复(5)
收起回复
摘幽香的花
chat
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
可以的,赛博怀胎
IP属地:浙江
来自
Android客户端
20楼
2024-08-17 12:03
回复(1)
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
完整走完一次余弦退火流程之后的结果。似乎还是不太行,但是对于这个规模的模型来说也差不多了。下一步应该就是提高规模,压榨显存
IP属地:广东
来自
Android客户端
22楼
2024-08-18 10:56
回复(5)
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
最近要开学了比较难更新。如果更新的话下一次更新应该是对第三方大模型的微调,我还得恶补相关知识
IP属地:广东
来自
Android客户端
23楼
2024-08-20 20:50
回复
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
参考了一下别人的代码,下一步应该是放弃attention padding mask和采用rope和grouped attention
IP属地:广东
来自
Android客户端
25楼
2024-08-21 10:23
回复(2)
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
更新:
还是手痒去练自己的模型了。体验了一下Qwen2的中小型指令微调模型,一个token要好几秒钟,属实难顶。
Llama的RoPE和SiLU属实牛逼的,600多步能把loss练到个位数。之前用GPT2的位置嵌入不仅浪费显存,练了1000步loss才到这个水平。
IP属地:广东
来自
Android客户端
26楼
2024-08-23 00:29
回复
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
我去4090也太生猛了,两三个小时把loss给我干到0.0几去了
IP属地:广东
来自
Android客户端
27楼
2024-08-24 00:15
回复
收起回复
一只玩碧蓝的窝批薯薯
VC
5
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
智齿,到时候弄出来了开个播你就是中国vedal
IP属地:广东
来自
Android客户端
28楼
2024-08-25 11:31
回复
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
光顾着更新B站动态,差点忘了这个帖子了。。。
事实证明这么低的loss是个错误。我在算法里漏掉了一个转置操作,导致把标准答案漏出去了。于是AI马上学会了抄答案并获得了几乎满分的成绩(0.05的loss)。
更新现状:
IP属地:广东
29楼
2024-08-25 22:59
回复(3)
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
这是我漏掉的转置操作,它用于把时间维度和注意力头维度交换,然后会有代码将时间维度中未来的部分遮住让模型预测。因为缺失了这一步,未来的数据(也就是标准答案)就直接给模型“注意”到了
IP属地:广东
30楼
2024-08-25 23:02
回复
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
byd运营商
IP属地:广东
来自
Android客户端
31楼
2024-08-26 22:28
回复
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
更新:
模型规模还是太小,喂的数据也太杂乱。后续更新大概是扩大模型规模+选择更好的数据
IP属地:广东
32楼
2024-08-28 18:46
回复
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
bro的神志不是很清醒
IP属地:广东
33楼
2024-08-30 23:21
回复
收起回复
KyvYang
VE
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
有点意思
IP属地:广东
来自
Android客户端
34楼
2024-08-31 23:35
回复(2)
收起回复
朽梦挽歌&
VN
8
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
加油
IP属地:吉林
来自
Android客户端
35楼
2024-09-04 12:36
回复
收起回复
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧热议榜
1
国乒老教练尹肖驳斥吴敬平
1795800
2
iG横扫FPX晋级淘汰赛
1388636
3
哪吒2能否竞争奥斯卡
1011220
4
饺子成为内地票房最高的导演
792909
5
LPL败者组马上集齐流量队
646880
6
小米su7断轴事件迎来大结局
482250
7
康康直播间复盘cxy事件并道歉
460008
8
百色自杀女生账号曝光字字血泪
341458
9
魔法和科技谁碾压谁比较正常
253110
10
浅谈中配争议乱像
197127
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示