商汤开源 SenseNova U1 图文交错生成增强版模型:支持多页连续创作,角色风格不“跑偏”

多页连续创作:从单张到长文的跨越

传统图文生成模型往往局限于单张图片或简短文本,难以胜任漫画、绘本、教程等需要多页连贯叙事的场景。SenseNova U1 增强版突破了这一瓶颈,支持按照脚本或大纲自动生成图文交错的多页内容。无论是四格漫画的分格对话,还是小红书干货长图的高密度排版,模型都能逐页输出,并保持前后页在视觉风格、人物姿态上的自然过渡。例如,用户只需提供一段四格漫画脚本,模型即可依次生成每格的台词、旁白以及对应的插图,实现“脚本即成品”的创作流水线。

角色风格锁定:AI 创作不再“脸盲”

角色一致性是图文生成领域的长期痛点——同一个角色在前几页还是圆脸大眼,后几页就面目全非。SenseNova U1 增强版通过引入角色风格记忆模块,能够从用户提供的参考图或描述中提取关键特征(如发型、服饰、面部比例),并在后续生成中持续锁定。即便在数十页的连续创作中,角色的五官、表情、服装细节也能保持高度统一。这意味着创作者不再需要反复人工“修图”,AI 生成的连环画、角色漫可以直接交付使用。

复杂信息图与排版实战:解锁多场景应用

官方同步公开了多个实战案例,充分展示了模型在多样场景下的适应能力:

  • 高密度信息图排版:自动将结构化的数据(如统计表格、流程步骤)转换为图文混排的长图,文字与图表布局合理,视觉层次清晰。
  • 单链路图文交错生成:针对逻辑链条(如食谱步骤、产品组装说明),模型能按顺序输出“需求描述 + 对应插图”,并保证图文逻辑一致、插图细节准确。
  • 超密集网格排版:专为小红书等平台设计的干货长图模式,支持 4 列以上网格化排列,标题、正文、图标、配色均可自适应,极大提升了内容生产者的出图效率。

开源生态与行业影响:降低 AI 创作门槛

SenseNova U1 增强版的开源,意味着任何开发者、创作者都可以免费下载并部署模型,用于个人或商业项目。此前类似的多图文连续生成能力主要掌握在闭源模型手中,而商汤此次开源有助于推动长图文创作工具的民主化。结合其他开源社区(如面壁智能 MiniCPM-o 4.5、阿里千问 Qwen-Image-2.0)在视觉与语言融合上的进展,AI 辅助创作正进入“多页、多角色、多风格”的精准控制时代。未来,教育课件、商业文案、漫画连载等领域的生产效率有望全面提升。