

这项由复旦大学人工智能与具身智能研究院和阿里巴巴通义千问团队联合开展的研究,以预印本论文的形式发布于2026年6月,论文编号为arXiv:2606.18249。感兴趣的读者可通过该编号在arXiv学术平台上检索完整原文。
**一个让AI同时"看图"和"画图"的老难题**
如果你曾经用过那些能生成图片的AI工具,也用过那些能回答"这张照片里有什么"的AI助手,你可能会以为这两种能力对一台计算机来说应该是一回事——毕竟都是在和图片打交道。然而现实情况是,这两种能力在绝大多数现有AI系统中,几乎是由两套完全独立的"大脑"分别负责的,它们使用不同的"语言"来理解和描述同一张图片,就像是一个人的左手和右手完全不认识对方一样。
这种割裂带来了一个非常尴尬的后果:当你让一个AI先画一张图,然后再问它"你刚才画的图里有几棵树",这个AI必须把自己刚刚画出来的图重新"扫描"一遍,用另一套完全不同的系统去重新理解它——就好比你自己写了一封信,结果转头就忘了,只能重新读一遍才知道自己写了什么。这不仅效率低下,更重要的是,从根本上破坏了"真正统一的多模态智能"这个目标。
来自复旦大学和阿里巴巴通义千问团队的研究者们决心解决这个问题。他们提出了一个名为UniAR(Unified Auto-Regressive,统一自回归)的框架,核心思路用一句话概括就是:用一套统一的"翻译体系",让AI既能看懂图片,又能画出图片,而且画完之后可以直接回头看自己画了什么,无需任何额外的重新扫描步骤。
**一、为什么"看图"和"画图"需要不同的能力,又为什么必须统一?**
要理解这个研究的意义,先得明白"看图"和"画图"对AI来说为什么是两件完全不同的事。
当AI"看图"时,它需要关注的是图片的整体含义和高层次的语义信息。比如,它需要知道"这是一只狗"、"这个人看起来很开心"、"背景里有一座山"。这种理解依赖的是对图片宏观结构和语义关系的把握,就像你看一幅画时感受到的整体意境。
而当AI"画图"时,情况就完全不同了。要生成一张逼真的图片,AI必须关注到每一个像素级别的细节——毛发的纹理、光影的过渡、边缘的锐利程度。这就好比一个画家不仅要知道"我要画一只狗",还要精确控制每一笔的粗细、颜色和位置。这种能力依赖的是低层次的、高频率的视觉细节信息。
这两种需求在传统方法中是相互矛盾的。为了看图更准确,AI会使用能提取高层语义的编码器;为了画图更精细,AI会使用能保留低层细节的编码器。于是,几乎所有现有的"统一多模态模型"都采取了一个折中方案:在系统内部同时维护两套不同的视觉"词典",一套用来看,一套用来画。
然而这个折中方案制造了新的麻烦。两套词典意味着两个独立的表示空间,图片在这两个空间里被描述成完全不同的形式,就像同一个故事被翻译成了中文和法文——内容相同,但形式上互不相通。AI生成的图片,在"画图词典"里是一种表示,但在"看图词典"里是另一种表示,两者之间没有直接的对应关系。因此,每次想要理解自己画出来的图,AI都必须重新走一遍"看图"的全套流程。
UniAR的研究团队认为,这种割裂从根本上阻碍了真正意义上的统一智能。他们的目标是设计出一套单一的视觉"词典",让这个词典既能满足看图时对语义的需求,又能满足画图时对细节的需求,从而实现真正的共享上下文——AI能直接理解自己生成的内容,无需任何中间转换步骤。
**二、解决问题的核心武器:一个能同时兼顾"意境"与"笔触"的视觉翻译官**
UniAR团队为这个问题设计了一套精妙的解决方案,可以用"多层次融合的视觉翻译官"这个比喻来理解。
具体来说,这套方案的基础是一个叫做SigLIP2的视觉编码器——可以把它理解成一位经验丰富的"图片理解专家"。这位专家在阅读一张图片时,会在不同的阅读阶段产生不同层次的理解。在阅读的早期阶段(浅层),他对图片的细节纹理、颜色变化、边缘轮廓特别敏感;而在深度思考之后(深层),他更关注"这整体上是什么"、"这几个元素之间是什么关系"这类宏观语义。
传统做法只使用这位专家"读完全书之后的总结"(深层特征),这对看图理解来说很好,但对画图来说丢失了太多细节。UniAR的创新在于,研究团队同时提取了这位专家在多个阅读阶段的笔记——除了最终的深层特征之外,还额外融合了三个中间层的特征。这样一来,既保留了宏观的语义理解,又保留了微观的细节信息,两全其美。
但是,仅仅融合多个层次的特征还不够。AI处理语言用的是离散的"词语"(token),而图片特征本来是连续的数值,就像音乐的波形和乐谱之间的关系——要让语言模型能够处理图片,就必须把连续的图片信息转化成一个个离散的"词语"。
这个转化过程叫做"量化"。传统的量化方法(向量量化,VQ)类似于给每一种视觉特征分配一个固定的编号,就像图书馆的索引系统——每本书都有一个唯一的编号,查书时就查编号。但这种方法有个严重限制:词典的规模受限于你事先设定的编号数量,要扩大词典就必须存储大量编号,计算成本极高。
UniAR采用了一种更聪明的量化方式,叫做"二进制球形量化"(Binary Spherical Quantization,BSQ)。这种方法不再给每个视觉特征分配一个固定编号,而是把每个视觉特征转化成一串由0和1组成的二进制代码,就像摩尔斯电码——用点和划的组合来表示任何信息。UniAR使用的是64位的二进制代码,这意味着理论上可以表达2的64次方种不同的视觉状态,这个数字大约是1800亿亿,远超任何传统词典的规模,而存储这套系统的成本却非常低——你只需要记住"0和1的规则",而不是存储一个庞大的编号索引表。
这套"多层次融合加二进制量化"的视觉翻译官,就是UniAR整个系统的基石。它将图片转化成了一串串由0和1组成的数字代码,这些代码既包含了高层语义信息,也保留了低层细节信息,是真正能够同时服务于"看图"和"画图"的统一表示。
**三、让AI用同一套语言同时"读"和"写"图片:统一自回归模型**
有了统一的视觉翻译官,下一步就是要让AI真正学会用这套翻译体系来理解和生成图片。UniAR使用的是一个叫做"自回归模型"的框架——这个概念可以用"接龙游戏"来理解。
在文字接龙游戏中,每个人根据前一个人说的话,预测并说出下一个词。大型语言模型(比如ChatGPT背后的技术)正是这样工作的:它阅读所有已经出现的词语,然后预测下一个最合适的词语。UniAR将这套接龙游戏扩展到了图片领域:AI不仅可以预测下一个文字词语,还可以预测下一个视觉"词语"(即那些由0和1组成的二进制代码)。
关键的创新在于,UniAR用完全相同的接龙规则来处理文字和图片,这意味着AI在同一个系统中可以无缝地理解文字、理解图片、生成文字、生成图片,它们都是同一种接龙游戏的不同玩法。
不过,图片接龙面临一个效率挑战。一张512×512像素的图片,如果每个位置都需要预测一个独立的视觉代码,那么总共需要预测256个步骤(经过压缩之后)。但UniAR研究团队引入了一个更巧妙的机制:并行位元预测。
在传统的接龙中,每次只说一个词。但UniAR的接龙方式是:每次同时说出一个2×2格子里的多个词,而且每个格子里还同时包含来自不同层次(浅层、中层、深层)的多个二进制代码。这就相当于把原来需要一个接一个完成的很多步骤,打包成了一步来完成。
经过这种压缩,原本需要很多步骤才能生成的图片,现在只需要少得多的步骤。具体来说,UniAR实现了32倍的视觉压缩比——一张512×512的图片只需要256个预测步骤就能生成。如果再配合后面会提到的超分辨率技术,一张1024×1024的高清图片也只需要256个预测步骤,而同等设定下的其他模型(如Janus-Pro和X-Omni)需要4096个步骤,速度差异是极其显著的。
在训练这个自回归模型时,研究团队还加入了一个有趣的"防错训练"技巧:随机翻转一部分二进制位。这是在模拟真实生成时可能出现的错误积累——毕竟在接龙游戏中,前面的人说错了一个词,后面的人就很可能越走越偏。通过在训练时故意引入一些错误,然后让模型学习如何在这种情况下仍然生成高质量的图片,模型变得更加健壮,即使在较高的"随机性"(温度)下也能稳定地产生优质结果。这个特性对于后续的强化学习阶段尤其重要,因为强化学习需要模型能够在高随机性下进行广泛探索。
**四、从"数字密码"到精美图片:视觉解码器的最后一棒**
自回归模型生成的是一串由0和1组成的数字代码,但用户最终看到的是一张完整的图片。把数字代码变成像素图片,这是视觉解码器的任务。
UniAR使用的视觉解码器基于一种叫做"扩散变换器"(Diffusion Transformer,DiT)的模型,具体使用的是Stable Diffusion 3.5 Medium。可以把这个解码器理解成一位精通还原工作的艺术家——给他一些关键的"草图指令"(即前面生成的视觉代码),他能够据此还原出一张高质量的完整图片。
这位艺术家的工作原理是扩散过程:先从一张完全随机的噪声图片开始,然后一步步地去除噪声,同时受到视觉代码的引导,最终还原出清晰的图片。视觉代码通过直接叠加到噪声图片的隐藏状态上来发挥引导作用,就像在一张白纸上轻轻描绘出轮廓,然后让艺术家根据这些轮廓填充细节。
UniAR的解码器有一个重要的设计特点:它只依赖视觉代码,不需要任何文字提示作为输入。这与一些其他方法不同,那些方法的解码器同时接受文字和视觉代码作为输入。UniAR的理念是:所有的语义信息和布局安排都应该在自回归模型那个阶段完成,解码器只负责"忠实地翻译"——把自回归模型已经规划好的视觉代码变成漂亮的图片,不需要也不应该在这个阶段引入新的语义干预。
此外,解码器还支持分辨率提升功能。自回归模型生成512×512分辨率的视觉代码,解码器可以通过插值技术将其放大到1024×1024的输出图片,在保持自回归阶段轻量高效的同时,最终呈现高分辨率的输出结果。
**五、三阶段修炼:从广博学习到精益求精**
整个UniAR系统的训练分为三个递进的阶段,就像一位学生从基础教育到专业培训再到实战演练的成长历程。
第一阶段是大规模预训练,这是最耗时也是最基础的阶段。研究团队准备了大约1万亿个词语规模的训练数据,分为两个子阶段。第一个子阶段使用8000个词语的上下文窗口,处理最大512×512像素的图片,训练了大约8000亿个词语;第二个子阶段将上下文窗口扩展到32000个词语,图片分辨率也提升到960×960像素,训练了大约2000亿个词语。在这个阶段,视觉理解数据和视觉生成数据各占一半,模型在海量的"看图—说话"和"文字描述—生成图片"的例子中建立起对世界的广泛认知。
第二阶段是监督微调,使用大约500亿个词语规模的精心筛选高质量数据进行训练。这些数据来源于公开的合成数据集以及研究团队重新合成的数据,格式转化为更符合对话习惯的多轮交流格式,让模型学会更好地遵循复杂指令,处理多轮对话场景。
第三阶段是强化学习微调,这也是最具创新性的阶段。强化学习的基本思路是:让模型生成很多不同的结果,然后根据这些结果的质量给模型打分,鼓励它往高分的方向调整。具体来说,研究团队设计了多个维度的打分标准。在图片质量方面,使用HPSv2和UnifiedReward两个工具来评估图片的美观度和自然度。在文字渲染方面,使用PaddleOCR识别生成图片中的文字,然后比较识别结果与目标文字的差距,差距越小分数越高。在指令遵循方面,使用一个基于目标检测的奖励系统,检查生成的图片是否正确包含了提示词中要求的物体、数量、属性和位置关系。所有分数都被归一化到0到1的范围内取平均值,作为最终奖励。
强化学习阶段的训练分为两个小步骤:先在512×512的分辨率下训练500步,快速提升图片质量和指令遵循能力;然后在更高的960×960分辨率下再训练100步,重点提升长文本渲染的质量。从实验数据来看,随着强化学习步数的增加,模型在文字渲染的评测指标上稳步攀升:从监督微调结束时的71.1分,经过500步512分辨率训练后达到84.0分,再经过100步960分辨率训练后进一步提升到87.3分,提升幅度相当明显。
值得一提的是,UniAR的强化学习仅针对图片生成任务,并不涉及图片编辑和多模态理解任务,这是当前版本的一个阶段性选择。
**六、实际表现:在多项测试中究竟做到了什么程度?**
研究团队对UniAR进行了全面的测试,覆盖图片生成、图片编辑和多模态理解三个主要方向。
在指令遵循能力测试方面,研究团队使用GenEval这个专门用来评估文字转图片指令遵循质量的基准测试。这个测试会要求AI生成包含特定物体、数量、颜色、空间位置关系的图片,然后自动检测生成结果是否符合要求。UniAR(在加入提示词重写的情况下)获得了0.86的综合分数,超越了GPT-4o(0.84)以及专门用于生成的Flux.1-dev(0.82)。在不加提示词重写的情况下,UniAR也达到了0.85,在所有统一模型中处于领先位置。对比来看,BAGEL(另一个知名统一模型)在加提示词重写后得0.88,是当前已知分数最高的统一模型,UniAR与其差距较小。
在文字渲染能力测试方面,这是一项让大多数图片生成AI都头疼的能力——要在生成的图片中准确呈现指定的文字内容,尤其是长文本。研究团队在OneIG-Bench(英文子集)和LongText-Bench(英文子集)上进行了测试。在OneIG-EN上,UniAR取得了0.873的分数,超过了GPT-4o的0.857;在专门针对长文本渲染的LongText-EN上,UniAR取得了0.917的分数,超过了Gemini 2.5 Flash Image的0.869。这两项成绩表明UniAR在文字渲染这个传统难点上取得了相当有竞争力的表现。
在图片编辑能力测试方面,研究团队使用ImgEdit-Bench进行测试,这个基准涵盖了添加物体、调整属性、提取元素、替换内容、移除物体、更换背景、改变风格、混合编辑和动作类编辑等多种图片编辑任务。UniAR取得了3.73的综合分数,超过了专门为图片编辑设计的Flux.1 Kontext Dev(3.71),以及BAGEL(3.20)、OmniGen2(3.44)等统一模型,仅低于GPT-Image-1 High(4.20)和专门的Qwen-Image-Edit(4.27)。
在多模态理解能力测试方面,UniAR在OCR相关任务上表现突出,OCRBench得分833,DocVQA得分91.4,InfoVQA得分70.0,均超过了LLaVA-OV这一专门为理解优化的模型。在视频理解基准MVBench上,UniAR得分62.3,也超过了LLaVA-OV的56.7。不过,在MMMU这个侧重推理和广泛知识的综合测试上,UniAR得分44.3,与Qwen3-VL(69.6)等顶级理解模型相比仍有差距。研究团队分析,这主要是由于预训练时没有引入纯文字数据,以及尚未对理解任务进行强化学习优化所致。
研究团队还专门测试了UniAR视觉编码器本身的理解能力,将其与其他主流视觉编码器进行了横向比较。结果显示,UniAR的视觉编码器(基于SigLIP2改造的版本)在TextVQA、DocVQA和ChartQA三项文字相关的视觉问答任务上达到了最优水平,分别得到63.1、38.0和26.8分,超过了原版SigLIP2、AIMv2和CoMP-SigLIP等竞争对手,验证了多层次特征融合策略的有效性。
**七、一个意外惊喜:AI开始"对自己的创作负责"**
在做各种消融实验(逐一测试各个设计选择的效果)时,研究团队发现了一个没有特别刻意设计、但自然涌现出来的有趣能力。
由于UniAR使用了统一的视觉词典,它生成的图片和它理解的图片使用的是完全相同的"语言"。这意味着,在同一个对话上下文中,UniAR可以直接"读懂"自己刚刚"写出来"的图片,不需要任何额外的重新编码步骤。
研究团队设计了一个测试场景:给UniAR一个模糊的描述,比如"一个漂亮的花瓶摆在桌子上,墙上挂着几幅画",让它生成一张图片;然后在同一个对话中,紧接着问它"花瓶和桌子之间有什么"、"墙上挂了几幅画"这类关于生成图片细节的问题。
UniAR成功地回答了这些问题,而且答案完全符合它自己生成的图片内容——它回答"花瓶和桌子之间有一个圆形编织的餐垫",并且"墙上挂了两幅画"。这两个细节是由UniAR在生成图片时自主决定的,既没有在原始提示词中指定,也没有经历任何重新编码的过程。
这说明UniAR真正实现了"共享上下文"的目标:生成和理解在同一个表示空间中进行,AI可以像一个人回忆自己刚才做了什么一样,直接理解自己的生成结果。而Janus-Pro和BAGEL等依赖双重词典的模型则无法做到这一点——它们需要先把生成的图片重新用理解编码器编码,才能回答关于生成图片的问题。
**八、系统有多快、训练成本怎样?**
UniAR在推理效率上的优势相当显著,这主要得益于前面提到的并行位元预测和高压缩比设计。
在生成一张1024分辨率图片所需的时间上,研究团队在相同的A100 GPU上(不使用分类器引导技术)进行了对比测试。Janus-Pro需要101.9秒,X-Omni需要119.7秒,而UniAR在不使用解码器超分辨率时只需要53.5秒,使用解码器超分辨率时更是只需要13.0秒——比Janus-Pro快了将近8倍。这种巨大差异主要来自于预测步骤数量的减少:Janus-Pro和X-Omni需要预测4096个视觉词语,而UniAR只需要预测1024个(不用超分辨率)或256个(用超分辨率)。
在训练效率上,使用离散视觉词语(而非连续的特征向量)的一个附加优势是:图片可以被预先处理成紧凑的二进制格式存储起来,无需在每次训练时重新计算。这使得预训练的吞吐量比使用连续特征的方案提升了约30%(在8K上下文长度下,每次迭代时间从35.4秒降低到24.5秒)。
整个系统的训练总耗费约3.3万GPU小时,其中预训练(8K阶段)消耗约1.9万GPU小时,预训练(32K阶段)消耗约1万GPU小时,监督微调消耗约2000GPU小时,强化学习消耗约1900GPU小时。
与最相近的竞争对手X-Omni相比,UniAR使用了规模更小的视觉编码器(4亿参数对比X-Omni的10亿参数)和更小的扩散解码器(25亿参数对比X-Omni的120亿参数),但在多数测试指标上仍能达到或超过X-Omni的水平,这说明UniAR在参数效率上具有一定优势。
**九、还有什么没做到,未来往哪走?**
研究团队在论文中坦率地指出了当前版本的几个局限性。
由于资源限制,预训练阶段没有加入纯文字数据,这导致模型在需要广泛语言知识和推理能力的任务(如MMMU)上表现不如专门的视觉语言模型。强化学习目前只针对图片生成任务,而图片编辑和多模态理解任务尚未从强化学习中获益。此外,在美观度方面,UniAR的图片生成质量与GPT-Image-1等最顶尖的商业模型相比仍有一定差距。
对于未来的改进方向,研究团队计划通过扩大训练数据规模和模型参数规模来进一步提升性能,探索更好的数据混合比例(特别是视觉数据和文字数据的搭配),开发针对不同领域(美观度、指令遵循、文字渲染)的专门奖励模型,以及将强化学习扩展到图片编辑和多模态理解任务上。
说到底,UniAR这项研究想做到的事情,就是让AI像人一样,用同一套感知体系去理解世界,又用同样的体系去表达和创造——看图和画图不再是两件事,而是同一种能力的两面。这个目标目前已经迈出了重要的一步,但离真正完美的统一多模态智能还有相当的路要走。对于关注AI多模态能力发展的读者来说,这项来自复旦大学和阿里巴巴通义千问团队的研究提供了一个值得持续关注的技术方向。如果希望深入了解技术细节,可通过arXiv编号2606.18249查阅完整原文。
---
**Q&A**
Q1:UniAR为什么要用一个视觉词典同时处理看图和画图?
A:传统方法中,"看图"需要理解高层语义,"画图"需要保留低层细节,这两种需求不同,所以大多数系统用两套独立的视觉词典分别处理。但这样一来,AI画出来的图和它能看懂的图使用不同的"语言",生成后必须重新编码才能理解自己画了什么。UniAR通过多层次特征融合和二进制量化,设计出一套同时保留高层语义和低层细节的统一词典,从根本上解决了这个割裂问题。
Q2:UniAR的并行位元预测是怎么提高速度的?
A:传统自回归方法每次只预测一个视觉词语,生成一张图片需要大量步骤。UniAR的并行位元预测机制每次同时预测一个2×2格子中多个位置、多个层次的二进制代码,相当于把多个独立的预测步骤打包成一步完成。配合32倍的空间压缩比,一张512×512图片只需256步即可生成。若再使用解码器超分辨率,1024×1024的高清图片仍只需256步,比同类模型快近8倍。
Q3:UniAR在强化学习阶段具体是怎么打分的?
A:UniAR的强化学习使用了多维度的打分体系。图片质量方面用HPSv2和UnifiedReward评估美观度和自然度;文字渲染方面用PaddleOCR识别生成图片中的文字,与目标文字计算编辑距离;指令遵循方面用目标检测工具检查图片是否包含提示词中要求的物体、数量、属性和关系。所有分数归一化到0到1后取平均值炒股配资官方网站,作为最终奖励信号来优化模型。
优配网提示:文章来自网络,不代表本站观点。