Phenaki

25 次浏览 1 个月前 AI视频工具

Phenaki是基于文本提示生成可变时长视频的AI模型。

扫码查看

Phenaki是什么

Phenaki是一个专门用于从文本生成视频的生成式AI模型。与许多只能生成几秒钟短视频的工具不同，它的核心能力在于能够根据随时间变化的提示词，合成长达数分钟的连贯视频内容。它通过理解动态的文本指令，在视频的时间维度上保持逻辑和视觉的一致性，从而实现从简单动作到复杂叙事的创作。

Phenaki最大的亮点在于突破了传统视频生成模型的时长限制。大多数模型受限于算力和数据结构，通常只能输出2-4秒的短视频，而Phenaki能够生成长达数分钟的视频，这对于讲故事和制作复杂内容至关重要。

动态提示（CineGPT）：它不仅仅接受单一的初始提示，而是支持在时间轴上嵌入多个文本指令。这意味着你可以让画面在第5秒发生某种变化，在第20秒进入下一个场景，模型会自动平滑过渡，保持视觉上的连贯。
高效压缩编码：为了处理长视频，Phenaki采用了一种名为MaskGIT的视频编码技术，它能将视频压缩成更紧凑的“token”（标记），使得模型能够在有限的算力下处理更长的序列数据。
基于文本的视频插值：它不仅能生成完整视频，还能根据两个关键帧的文本描述，在中间进行平滑的过渡渲染，创造出自然的流动感。

Phenaki的创作过程高度依赖于文本对时空的精准控制。它的工作逻辑不同于传统的“文生图”再连成视频的拼接方式，而是在潜空间（Latent Space）中直接进行时空维度的推理。

输入一组高级别提示：用户可以输入一个故事大纲，例如“一只猫在草地上睡觉，醒来后追逐蝴蝶”。
模型的时间轴解析：Phenaki会将这个长提示分解为不同的时间切片，识别出关键动作节点（睡觉 -> 醒来 -> 追逐）。
生成与合成：模型会依据这些时间切片，在生成的视频帧序列中构建因果关系。这种机制确保了视频中的物体不会无故消失或形态突变，即使在跨越较长时间的叙述中也能保持主角的一致性。