今日版 / 2026年6月25日星期四

limbo logolimbo

数据更新时间

6月23日 17:28

启用来源

10

抓取状态

真实抓取

研究进展arXiv AI / CL

隐式视觉思维链:结构感知文本到图像生成新方法

摘要

统一多模态大模型在文本到图像生成中表现强劲,但在遵循对象计数、空间关系等结构提示时仍有不足。为此,研究者提出隐式视觉思维链(IV-CoT),一种潜在视觉推理框架,将视觉条件查询分解为结构到语义的级联,通过训练时草图监督引导结构查询,无需推理时草图提取或中间解码,在GenEval和T2I-CompBench上取得更优结果。

背景解释

文本到图像生成模型在生成符合复杂结构描述的图像时,常出现对象数量错误、空间关系混乱等问题。IV-CoT通过隐式推理分离结构规划与外观渲染,提升了模型对结构感知提示的遵循能力,有助于生成更准确的图像,对AI内容创作和设计领域具有潜在价值。

来源地区

Global

热度分

76

分类

研究进展

语言

en