多模态大模型
Qwen2vl mini-omni2 对于从Qwen2-vl,我想搞清楚三个问题: 1. 多模态模型是怎么训练的 2. 为什么图像能做OCR?token化图像,为什么不会被撕裂掉? 3. 怎么做function call? 4. 有没有更快的方法可以和大模型进行交互?(开放性问题)
-
多模态模型是怎么训练的?
首先训练数据都用到了ChatML(openai)提出的,这个就是现在数据为什么都使用一个Chat template 一个是训练对话能力。 一个训练vedio grounding能力,也就是所谓的是视觉基础能力,里面训练数据会被插入被标准化到1到1000的数值,
我查看了去年比较早起的LLava工作,讲的是如何讲视觉信息融入大模型的语义,通过不断去学习vit投射到模型输入的同一语义空间中, 语义上的对齐,并且制作了多种的语言模板,大概结构是图片+图片描述+针对图片上的问答,大概有100K左右的instruction following data。 其次这种instrction的问答都是用当时的刚宣布自己支持图片模态的GPT4制造出来的数据。
-
然后出来了一个gpt40,拥有实时和人类对话的模型。
对于Mini-omni,我想搞清楚,他和视觉模型有没有一些工程上的不一样?
不过这个的数据,是通过gpt40制造出来的数据。