多模态吧 关注:81贴子:270
  • 2回复贴,共1

多模态任务规划助手,让你的日常工作更轻松

只看楼主收藏回复

近期开源的多模态任务规划助手,结合文字和图片给用户提出更清晰明了的指导。图1的示例中,使用者向多模态任务规划助手提问“如何做川菜”,规划助手一步一步每一步要做什么,甚至包括图片说明,给出了制作川菜每一步的文字和图片。
多模态过程规划(MPP)可以根据高层目标生成一系列配对的文字和图片步骤,比单一模态计划更具辅助性。(光给出文字说明有时候是很抽象的)
文本-图像提示(TIP)的双模态提示方法利用大型语言模型的零样本推理能力和扩散模型的文本-图像生成能力。TIP通过“文本-图像桥”和“图像-文本桥”实现双模态的互动,让文字指导更贴合实际图像,并且反过来利用图像描述来优化文字计划。图2展示了其结构。



IP属地:广西来自Android客户端1楼2023-05-07 02:20回复
    为了应对数据集的匮乏,该项目还特地收集了“WIKIPLAN”和“RECIPEPLAN”作为MPP的测试平台。研究结果显示,在清晰性、时间连贯性和计划准确性等方面,该方法优于单一模态和其他多模态基线。
    这张图展示了使用者提问“如何制作果汁”时,规划助手给出的分步说明。


    IP属地:广西来自Android客户端2楼2023-05-07 02:22
    回复
      广告
      立即查看
      github项目地址:网页链接
      论文:网页链接


      IP属地:广西来自Android客户端3楼2023-05-07 02:23
      回复