两者的结合效果一个AI从业者形象的解释为:扩散模型就像是一个雕塑过程将石料上不应该存在的部分去掉创造出雕塑作品。而Transformer通过自注意力机制理解时间线之间的关联则让这尊雕塑从石座上走了下来。
AIGC创业者洋芋酱AIgen艺名也认为:“视频是一帧一帧的图像采用UNet结构的逻辑是按照生产图像的方式做视频AI每生成一张图像都是随机的所以整个画面看起来很闪。而用视频训练的AI其产出的画面就相对稳定不会狂闪具有合理的连续的帧。
” 因此Sora发布之后DiT技术架构也成AI视频玩家的主流技术 乍得电话号码列表 架构并将其视为通往AGI的关键技术。 目前市面上主流AI视频工具在生成4秒-10s左右的视频片段。 生数科技此次Vidu开放文生视频、图生视频两个功能提供4s和8s两种时长选择分辨率最高达1080P。
在速度上生成一段4秒片段的实测推理速度只需30秒。 爱诗科技的PixVerse V2可支持生成单个时长8s的片段且支持一键生成1-5段连续的视频内容片段之间也会自动保持主体形象、画面风格和场景元素的一致性。
智谱AI的智谱清影可生成6秒的视频时间只要30秒左右清晰度可达1440×9603:2。 快手可灵生成的视频时长在5s但其有将视频时长延长的功能可以将视频时长延长至10s但在生成视频的速度上却相对较慢往往需要2-3分钟时间。