南大联合LibLib.ai、中科院自动化所,共同提出PosterCopilot

来自南京大学 PRLab 的魏佳哲、李垦,在准聘助理教授司晨阳的指导下,提出专业级海报设计与编辑大模型 PosterCopilot。本研究联合了 LibLib.ai、中国科学院自动化研究所等多家顶尖机构,共同完成了首个解耦布局推理与多轮可控编辑的图形设计框架研发。PosterCopilot 能够实现专业设计级的版式生成、语义一致的多轮编辑,并具备高度可控的创作能力。

此外,受华为-南京大学鲲鹏昇腾科教创新孵化中心支持,该模型已完成对国产昇腾算力平台的适配与部署,进一步推动了国产 AI 设计技术的发展与落地。

行业痛点:
从生成式失控到多模态「盲推」
平面设计是视觉传达的基石,但要实现真正的自动化专业设计,目前仍面临巨大挑战。尽管以 Stable Diffusion 为代表的文生图(T2I)模型在图像合成上表现强劲,但在实际的工业设计流中,它们因无法处理分层结构,往往导致用户素材失真且无法进行精细化控制。
为了解决这一问题,业界开始尝试利用多模态大模型(LMMs)进行布局规划,然而研究团队发现,现有的 LMMs 方案反而暴露出了四大致命短板:
在 PosterCopilot 的对比测试中,这些弱点暴露无遗:

现有模型在处理复杂多素材场景时,常出现严重的元素重叠、文字遮挡以及美学灾难。这反映了现有模型在细粒度布局推理和美学对齐上的根本不足。
同时,如图所示:

基于完全相同的元素可以有众多符合人类审美的布局方案,按照单一真值进行回归的训练方式容易扼杀模型的创造力。
核心成果:
构建专业级设计的「智能工作流」
为填补现有单步生成与专业工作流之间的鸿沟,研究团队提出了一套系统性的解决方案 PosterCopilot,并通过渐进式三阶段训练策略赋予模型设计推理能力。
独创三阶段训练:从几何纠偏到美学对齐
这是首个将布局生成任务从简单的回归问题转化为分布学习与强化学习结合的范式。

生成式智能体(Generative Agent):打通迭代编辑闭环
PosterCopilot 不仅仅是一个布局生成器,更是一个全能设计助手。团队设计了一个包含「接待模型」和「T2I 模型」的智能体,支持从灵感到素材的无缝转化:用户仅需输入抽象的设计构思,内置的接待模型(Reception Model)即可充当「创意策划」,自动将用户意图拆解为前景主体与背景氛围的详细规划。
随后,模型会生成精准的工程级提示词(Prompts),驱动 T2I 模型即时生成风格契合的高质量素材,实现从「抽象灵感」到「具体物料」的自动化落地。
通过将具备精密布局推理能力的设计模型与支持多轮交互的生成式智能体(Generative Agent)深度耦合,团队构建了 PosterCopilot 的完整框架,其从素材规划到最终成稿的推理流水线如下所示:

全能设计助手 PosterCopilot:覆盖专业设计的全链路需求
基于 Generative Agent 的强大赋能,PosterCopilot 能够完美胜任从「从零构建」到「后期精修」的多种专业场景:





PosterCopilot 数据集:高质量分层海报库
为解决数据匮乏问题,团队构建了包含 16 万张专业海报、总计 260 万个图层的高质量数据集。通过 OCR 辅助的细粒度图层融合技术,解决了传统数据集中图层过度碎片化(Over-segmentation)的难题,为社区提供了宝贵的数据资源。


实验结果:
全面超越商业竞品与 SOTA 模型
PosterCopilot 以 Qwen-2.5-VL-7B-Instruct 为 backbone,在多项指标上实现了对现有顶尖模型的超越。
在涵盖布局合理性、文本可读性、素材保真度等六大维度的评测中,PosterCopilot 展现了统治级表现。


结论与展望
对于平面设计这样兼具严谨几何约束与感性美学追求的领域,简单的端到端生成并非最优解。
PosterCopilot 通过解耦「布局推理」与「生成式编辑」,并引入强化学习对齐人类美学,成功让大模型掌握了专业设计师的「图层思维」。这不仅为智能设计工具树立了新的基准,也为未来 AI 辅助创意工作流提供了新的范式。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。
