研究进展arXiv AI / CL
隐式视觉思维链:结构感知文本到图像生成新方法

摘要
统一多模态大模型在文本到图像生成中表现强劲,但在遵循对象计数、空间关系等结构提示时仍有不足。为此,研究者提出隐式视觉思维链(IV-CoT),一种潜在视觉推理框架,将视觉条件查询分解为结构到语义的级联,通过训练时草图监督引导结构查询,无需推理时草图提取或中间解码,在GenEval和T2I-CompBench上取得更优结果。
背景解释
文本到图像生成模型在生成符合复杂结构描述的图像时,常出现对象数量错误、空间关系混乱等问题。IV-CoT通过隐式推理分离结构规划与外观渲染,提升了模型对结构感知提示的遵循能力,有助于生成更准确的图像,对AI内容创作和设计领域具有潜在价值。
来源地区
Global
热度分
76
分类
研究进展
语言
en
