商汤开源 SenseNova U1 图文交错生成增强版模型：支持多页连续创作，角色风格不“跑偏”

1 个月前

AI资讯

36 阅读

开源商汤图文生成多页创作

多页连续创作：从单张到长文的跨越

传统图文生成模型往往局限于单张图片或简短文本，难以胜任漫画、绘本、教程等需要多页连贯叙事的场景。SenseNova U1 增强版突破了这一瓶颈，支持按照脚本或大纲自动生成图文交错的多页内容。无论是四格漫画的分格对话，还是小红书干货长图的高密度排版，模型都能逐页输出，并保持前后页在视觉风格、人物姿态上的自然过渡。例如，用户只需提供一段四格漫画脚本，模型即可依次生成每格的台词、旁白以及对应的插图，实现“脚本即成品”的创作流水线。

角色风格锁定：AI 创作不再“脸盲”

角色一致性是图文生成领域的长期痛点——同一个角色在前几页还是圆脸大眼，后几页就面目全非。SenseNova U1 增强版通过引入角色风格记忆模块，能够从用户提供的参考图或描述中提取关键特征（如发型、服饰、面部比例），并在后续生成中持续锁定。即便在数十页的连续创作中，角色的五官、表情、服装细节也能保持高度统一。这意味着创作者不再需要反复人工“修图”，AI 生成的连环画、角色漫可以直接交付使用。

复杂信息图与排版实战：解锁多场景应用

官方同步公开了多个实战案例，充分展示了模型在多样场景下的适应能力：

高密度信息图排版：自动将结构化的数据（如统计表格、流程步骤）转换为图文混排的长图，文字与图表布局合理，视觉层次清晰。
单链路图文交错生成：针对逻辑链条（如食谱步骤、产品组装说明），模型能按顺序输出“需求描述 + 对应插图”，并保证图文逻辑一致、插图细节准确。
超密集网格排版：专为小红书等平台设计的干货长图模式，支持 4 列以上网格化排列，标题、正文、图标、配色均可自适应，极大提升了内容生产者的出图效率。

开源生态与行业影响：降低 AI 创作门槛

SenseNova U1 增强版的开源，意味着任何开发者、创作者都可以免费下载并部署模型，用于个人或商业项目。此前类似的多图文连续生成能力主要掌握在闭源模型手中，而商汤此次开源有助于推动长图文创作工具的民主化。结合其他开源社区（如面壁智能 MiniCPM-o 4.5、阿里千问 Qwen-Image-2.0）在视觉与语言融合上的进展，AI 辅助创作正进入“多页、多角色、多风格”的精准控制时代。未来，教育课件、商业文案、漫画连载等领域的生产效率有望全面提升。

商汤开源 SenseNova U1 图文交错生成增强版模型：支持多页连续创作，角色风格不“跑偏”

多页连续创作：从单张到长文的跨越

角色风格锁定：AI 创作不再“脸盲”

复杂信息图与排版实战：解锁多场景应用

开源生态与行业影响：降低 AI 创作门槛

链接失效反馈