语言大模型文本生成视频Sora讨论会

2024-03-12 14:00:51 75

图片关键词

3月14日COPU与北京大学Open-Sora Plan 团队袁粒老师就关于复现Sora进行了学术讨论：

袁老师谈到：

北京大学Open-Sora开发/复现三个模块：

① 编码：Video VQ-VAE

② 训练：Denoising Diffusion Transformer

③ 条件注入：Condition Encoder

谈到条件注入：

文本信息、三维信息、二维视觉信息形成可控信息

理解物理场景发展规律、预判视觉下一步动作、迎接周围环境挑战

北大Open-Sora 发展三阶段：

开发/复现基本模型框架（含工作机制）

开发基本应用，

开发扩充应用。

参会人员：陆首群、袁粒、梁志辉、谭中意、宋可为，陈越、张侃、安泱、耿航、唐小引、鞠东颖、陈钟（线上）、高庆忠（线上）。