语言大模型文本生成视频Sora讨论会
2024-03-12 14:00:51
37
3月14日COPU与北京大学Open-Sora Plan 团队袁粒老师就关于复现Sora进行了学术讨论:
袁老师谈到:
北京大学Open-Sora开发/复现三个模块:
① 编码:Video VQ-VAE
② 训练:Denoising Diffusion Transformer
③ 条件注入:Condition Encoder
谈到条件注入:
文本信息、三维信息、二维视觉信息形成可控信息
理解物理场景发展规律、预判视觉下一步动作、迎接周围环境挑战
北大Open-Sora 发展三阶段:
开发/复现基本模型框架(含工作机制)
开发基本应用,
开发扩充应用。
参会人员:陆首群、袁粒、梁志辉、谭中意、宋可为,陈越、张侃、安泱、耿航、唐小引、鞠东颖、陈钟(线上)、高庆忠(线上)。