Skip to content

ReGraP-LLaVA: Reasoning enabled Graph-based Personalized Large Language and Vision Assistant

grok-3-latest
Score: 0.56
Published: at 16:00

Summary: 本文提出 ReGraP-LLaVA 模型,通过知识图谱和思维链问答数据增强个性化多模态大语言模型的关系推理能力,显著提升了上下文理解和复杂任务表现。

Keywords: LLM, Multimodal Learning, Knowledge Graph, Personalization, Reasoning

Authors: Yifan Xiang, Zhenxi Zhang, Bin Li, Yixuan Weng, Shoujun Zhou, Yangfan He, Keqin Li

Institution(s): Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences, Westlake University, University of Minnesota – Twin Cities, University of Toronto

Problem Background

多模态大语言模型(MLLMs)在图像分析和问答任务中表现出色,但现有个性化 MLLM 方法存在局限:训练数据缺乏多对象集合,无法学习对象间关系;模型忽略个性化概念之间的关系,缺乏推理能力;实验评估局限于单一概念的识别和描述任务,未能考察复杂的上下文理解能力。 因此,研究出发点是构建一个能够学习个性化知识并进行关系推理的模型,超越简单概念识别,达到更接近人类理解的上下文推理水平。

Method

Experiment

Further Thoughts

知识图谱与多模态模型的结合为提升复杂关系理解能力提供了新思路,未来可扩展到医疗诊断或教育领域,利用领域知识图谱增强推理能力;软硬提示方法的灵活性启发了对提示设计的进一步探索,如动态提示调整;此外,CoT 数据在推理中的作用表明,生成更高质量的推理路径或结合强化学习优化推理过程是值得研究的方向。