近期开源的多模态任务规划助手,结合文字和图片给用户提出更清晰明了的指导。图1的示例中,使用者向多模态任务规划助手提问“如何做川菜”,规划助手一步一步每一步要做什么,甚至包括图片说明,给出了制作川菜每一步的文字和图片。
多模态过程规划(MPP)可以根据高层目标生成一系列配对的文字和图片步骤,比单一模态计划更具辅助性。(光给出文字说明有时候是很抽象的)
文本-图像提示(TIP)的双模态提示方法利用大型语言模型的零样本推理能力和扩散模型的文本-图像生成能力。TIP通过“文本-图像桥”和“图像-文本桥”实现双模态的互动,让文字指导更贴合实际图像,并且反过来利用图像描述来优化文字计划。图2展示了其结构。


多模态过程规划(MPP)可以根据高层目标生成一系列配对的文字和图片步骤,比单一模态计划更具辅助性。(光给出文字说明有时候是很抽象的)
文本-图像提示(TIP)的双模态提示方法利用大型语言模型的零样本推理能力和扩散模型的文本-图像生成能力。TIP通过“文本-图像桥”和“图像-文本桥”实现双模态的互动,让文字指导更贴合实际图像,并且反过来利用图像描述来优化文字计划。图2展示了其结构。

