开源通讯

语言大模型文本生成视频Sora讨论会

2024-03-12 14:00:51 37

图片关键词

3月14日COPU与北京大学Open-Sora Plan 团队袁粒老师就关于复现Sora进行了学术讨论:

袁老师谈到:

北京大学Open-Sora开发/复现三个模块:

① 编码:Video VQ-VAE

② 训练:Denoising Diffusion Transformer

③ 条件注入:Condition Encoder

谈到条件注入:

 文本信息、三维信息、二维视觉信息形成可控信息

 理解物理场景发展规律、预判视觉下一步动作、迎接周围环境挑战

北大Open-Sora 发展三阶段:

 开发/复现基本模型框架(含工作机制)

 开发基本应用,

 开发扩充应用。

参会人员:陆首群、袁粒、梁志辉、谭中意、宋可为,陈越、张侃、安泱、耿航、唐小引、鞠东颖、陈钟(线上)、高庆忠(线上)。


首页
秘书处
开源通讯
开源活动