业界首个,阿里通义万相“首尾帧生视频模型”开源

发布时间:2025-05-02 11:22:36 来源:互联网

本站 4 月 17 日消息,阿里通义万相「首尾帧生视频模型」今日宣布开源,该模型参数量为 14B,号称是业界首个百亿参数规模的开源首尾帧视频模型。

它可根据用户指定的开始和结束图片,生成一段能衔接首尾画面的 720p 高清视频,此次升级将能满足用户更可控、更定制化的视频生成需求。

用户可在通义万相官网直接免费体验该模型,或在 Github、Hugging Face、魔搭社区下载模型本地部署后进行二次开发。

技术介绍

首尾帧生视频比文生视频、单图生视频的可控性更高,但这类模型的训练难度较大,首尾帧视频生成需同时满足以下几点:

1. 生成的视频内容要保证和用户输入的两张图像一致

2. 能够遵循用户的提示词指令

3. 能从给定的首帧自然、流畅过渡到尾帧

4. 视频本身动作协调、自然

训练及推理优化

基于现有的 Wan2.1 文生视频基础模型架构,通义万相首尾帧生视频模型进一步引入了额外的条件控制机制,通过该机制可实现流畅且精准的首尾帧变换。

在训练阶段,团队还构建了专门用于首尾帧模式的训练数据,同时针对文本与视频编码模块、扩散变换模型模块采用了并行策略,这些策略提升了模型训练和生成效率,也保障了模型具备高分辨率视频生成的效果。

在推理阶段,为了在有限内存资源的条件下支持高清视频推理,万相首尾帧模型分别采用了模型切分策略以及序列并行策略,在确保推理效果无损的前提下,显著缩短了推理时间。

功能升级

基于该模型,用户可完成更复杂、更个性化的视频生成任务,可以实现同一主体的特效变化、不同场景的运镜控制等视频生成。

例如,上传相同位置不同时间段的两张外景图片,输入一段提示词,通义万相首尾帧生成模型即可生成一段四季交替变化或者昼夜变化的延时摄影效果视频;上传两张不同画面的场景,还可通过旋转、摇镜、推进等运镜控制衔接画面,在保证视频和预设图片一致性前提下,同时让视频拥有更丰富的镜头。

本站附开源地址:

    Github:https://github.com/Wan-Video/Wan2.1

    HuggingFace:https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P

    魔搭社区:https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P

    直接体验入口:https://tongyi.aliyun.com/wanxiang/videoCreation

本周热门教程

1
滴滴宣布投入 20 亿元稳就业促消费,积极应对外部挑战

滴滴宣布投入 20 亿元稳就业促消费,积极应对外部挑战

2025/04/18

2
《半条命3》玩法技术剧情大揭秘,戈登·弗里曼故事将迎终章?

《半条命3》玩法技术剧情大揭秘,戈登·弗里曼故事将迎终章?

2025/04/20

3
蚂蚁庄园今日课堂答题4月6日 蚂蚁庄园今日课堂答题最新答案

蚂蚁庄园今日课堂答题4月6日 蚂蚁庄园今日课堂答题最新答案

2025/04/09

4
蚂蚁庄园今日答案(每日更新) 蚂蚁庄园今日答案4月8日

蚂蚁庄园今日答案(每日更新) 蚂蚁庄园今日答案4月8日

2025/04/11

5
快手网页版登录入口

快手网页版登录入口

2025/04/15

6
科技昨夜今晨 0411:苹果 iPhone 17 Pro 手机壳曝光;零跑宣布智驾软件全面免费;6499 元起 OPPO Find X8 Ultra 发布...

科技昨夜今晨 0411:苹果 iPhone 17 Pro 手机壳曝光;零跑宣布智驾软件全面免费;6499 元起 OPPO Find X8 Ultra 发布...

2025/04/15

7
在线设计平台 Canva 新增多项 AI 技能:图片生成、互动编程、电子表格等

在线设计平台 Canva 新增多项 AI 技能:图片生成、互动编程、电子表格等

2025/04/15

8
《中土世界》复仇女神系统:创意源于防二手,未来路在何方?

《中土世界》复仇女神系统:创意源于防二手,未来路在何方?

2025/04/19

9
老师脱让学生摸流片游戏:这类校园游戏对孩子教育的影响你了解吗?社会对此有何看法?

老师脱让学生摸流片游戏:这类校园游戏对孩子教育的影响你了解吗?社会对此有何看法?

2025/04/04

10
三星新专利曝光:折叠游戏掌机融合任天堂DS与PS Portal设计

三星新专利曝光:折叠游戏掌机融合任天堂DS与PS Portal设计

2025/04/08