成本砍半，字节跳动推出 Seedance 2.0 Mini 视频生成模型

7 天前

AI资讯

15 阅读

多模态字节跳动 AI视频视频生成模型

导演级控制与多模态输入：重新定义AI视频创作

Seedance 2.0 打破了传统AI视频工具单一输入的局限，支持文字、图片、视频片段和音频四种模态的自由组合。用户可同时上传最多9张图片、3段视频、3段音频，搭配自然语言指令完成创作，模型能精准参考输入素材中的构图、动作、运镜等元素。更颠覆性的是，该模型能理解类似“@character1 随着 @audio1 的节拍起舞，模仿 @video1 的编舞，以 @style_image 的视觉美学风格”这样的复杂提示，自动协调角色、风格和节奏，像真正的导演一样构思镜头语言。这种“一句全局提示即可自然出专业节奏”的能力，被用户称为“直接干掉了剪辑师的壁垒”。

原生音视频同步：后期制作成本砍半

以往AI视频工具通常先生成无声视频，再在后期生硬添加音频。Seedance 2.0 采用创新的双分支扩散Transformer架构，可同时生成同步的音频和视频——对话、环境音、背景音乐和音效融为一体，输出浑然天成。该模型支持8种以上语言的精准唇形同步，并集成双声道立体声技术，实现音频多轨并行输出。据官方数据，这一能力使后期制作成本最高降低70%，远超“成本砍半”的预期。在实际测试中，好莱坞导演Charles Curran仅用20分钟、花费60美元便完成了一部真人电影预告片的制作，印证了其对传统影视工业成本结构的颠覆潜力。

成本砍半，字节跳动推出 Seedance 2.0 Mini 视频生成模型

多镜头叙事与2K画质：普通人的“电影梦”成真

Seedance 2.0 最惊艳的能力在于自动生成连贯的多镜头序列。它能在60秒内输出最长60秒、最高2K分辨率的视频，且角色、风格、氛围全程一致，无需手动拼接。模型在复杂物理模拟上表现卓越——双人花滑同步起跳、空中旋转等时序精密的交互场景，以及特写镜头中光影折射、衣物颤动的细节，均达到电影级水准。著名导演贾樟柯在个人微博发文认可该模型的技术实力，并计划用它制作短片；影视飓风创始人潘天鸿实测后盛赞其分镜设计、多镜头叙事和音画匹配度，视频播放量突破500万。从竖屏短视频到横屏影院，支持16:9、9:16、21:9等多种画幅，真正让“拍电影”成为普通人的日常。

行业反响与争议：马斯克点赞，版权问题受关注

Seedance 2.0 发布后迅速引发全球关注。特斯拉CEO埃隆·马斯克在X平台评论“事情进展得很快”；游戏科学创始人冯骥评价其为“当前地表最强视频生成模型”，认为这标志着AIGC正式结束童年时代、迈入实用化阶段。但他也警示，逼真假视频的生成门槛将因此大幅降低，对现有知识产权与审查体系构成空前冲击。影视飓风潘天鸿则在测评中直指数据隐私与版权保护的核心议题。对此，豆包平台已在产品端设置多重合规红线：严格禁止侵害他人姓名权、肖像权、声音权等人格权益，用户无法生成任何明星相关的视频画面，从源头规避侵权风险。资本市场反应积极，中文在线、掌阅科技等相关个股连续涨停，里昂证券称该模型的发布是全球娱乐业的决定性时刻。

如何访问与定价：豆包、即梦、API全面开放

目前中国用户可通过豆包、即梦AI（Dreamina）等平台直接体验Seedance 2.0，每日享有10个视频生成额度。海外用户可通过Dreamina官网或Atlas Cloud API访问，支持美、印、欧等地区。API定价方面，标准版为0.10美元/秒，快速版为0.081美元/秒。基础视频生成仅需30~90秒，高分辨率或多资产模式下可能延长至3~8分钟。字节跳动还提供了名为Seedance 2.0 Fast的低延迟变体，适用于对周转时间要求较高的场景。随着“即梦AI”等消费级应用的落地，AI视频创作的技术门槛已被再次大幅降低，行业正迎来从“专业工具”到“全民创作”的转折点。

成本砍半，字节跳动推出 Seedance 2.0 Mini 视频生成模型

导演级控制与多模态输入：重新定义AI视频创作

原生音视频同步：后期制作成本砍半

多镜头叙事与2K画质：普通人的“电影梦”成真

行业反响与争议：马斯克点赞，版权问题受关注

如何访问与定价：豆包、即梦、API全面开放

链接失效反馈