研究进展arXiv AI / CL6月23日 17:28

隐式视觉思维链：结构感知文本到图像生成新方法

摘要

统一多模态大模型在文本到图像生成中表现强劲，但在遵循对象计数、空间关系等结构提示时仍有不足。为此，研究者提出隐式视觉思维链（IV-CoT），一种潜在视觉推理框架，将视觉条件查询分解为结构到语义的级联，通过训练时草图监督引导结构查询，无需推理时草图提取或中间解码，在GenEval和T2I-CompBench上取得更优结果。

背景解释

文本到图像生成模型在生成符合复杂结构描述的图像时，常出现对象数量错误、空间关系混乱等问题。IV-CoT通过隐式推理分离结构规划与外观渲染，提升了模型对结构感知提示的遵循能力，有助于生成更准确的图像，对AI内容创作和设计领域具有潜在价值。

来源地区

Global

热度分

分类

研究进展

语言