前前后清理了好久数据集,从7000+清理到2700,又跑了好几个版本的Lora测试
尴尬的是我用超大数据集(*****张)跑出来的效果比mini数据集(随机选了70张)强点有限
最终版模型是特挑2700张训练的,服饰过拟合的情况小点,也不像老数据集跑的会有字幕和黑点噪声。
代价是头发长度和表情(指不总是板着个脸)稍微没那么像。可以通过添加very long hair 的prompt补救,身高问题可以通过添加 child补救。
这些是不同版本的Lora测试图,你们分得出差别ma?
最终简化版2700数据集 无数据增强 4epoch 服饰过拟合的情况好一些了,但代价是表情还原度稍低。
不过个人还是觉得这版效果稍好。
迷你数据集 有点像,但混了很多别的角色的感觉进去。
4000数据集 2epoch,可以看到即使是2epoch也收敛得很好了。
4000数据集4epoch 和上面区别不大
4000数据集6epoch 和上面区别不大
4000数据集 10epoch
老数据 1000张的样子,第一章这种带字幕的情况还挺多的,
我这是5批,每批两张,如果批数增多会经常出现黑点和字幕。