VisualGLM-6B 是一个开源的,支持图像、中英文的多模态对话语言模型,基于 ChatGLM-6B。
之前清华就开源过GLM的base模型和ChatGLM,其中ChatGLM作为早期开源的大语言模型,在开源大语言模型榜单中仍然能排名第五,能力不容小觑,而且还是少数能完美支持中文的优秀开源语言模型,因此多模态的ChatGLM的效果也十分令人期待,期待其多模态能力加持后的效果。现在VisualGLM终于来了。
VisualGLM图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。


之前清华就开源过GLM的base模型和ChatGLM,其中ChatGLM作为早期开源的大语言模型,在开源大语言模型榜单中仍然能排名第五,能力不容小觑,而且还是少数能完美支持中文的优秀开源语言模型,因此多模态的ChatGLM的效果也十分令人期待,期待其多模态能力加持后的效果。现在VisualGLM终于来了。
VisualGLM图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。

