COPU会议纪要2024.03.12
3月12日陆主席主持召开COPU例会。
在本次会议上再评文本生成视频大语音模型Sora (人工智能)。可是Sora不开源。在国内为了扩大Sora的利用价值,必须找到、开发、复现Sora的竞争者或开源Sora者。
在会上讨论对生成视频Sora及其竞争者、国内复现开源Sora者。
OpenAI于2024年2月15日发布由文本生成视频的大语言模型Sora(号称世界模拟器),COPU在2004年2月20日和2024年2月27日两次例会上进行了学习、讨论和点评,正当我们对Sora开始深入研究的时候,我们发现Sora是闭源的(据OpenAI CEO 奥特曼讲今后Sora也不准备开源,同是OpenAI创始人马斯克指责奥特曼这是违背初心的)。
就在此时,与Sora竞争的信息也不时涌来:
由一拳AIGC工作室开发的LTX Studio震撼来袭,声称Sora被超越。
由谷歌研发的由文本生成视频的Genie模型(+Ada)是开源的(号称基础世界模型)。
在国内,涌现出开源的北大Sora,还有河北(查证为海淀)潞晨科技旗下的Colossal-AI开源团队开发的开源Sora(open-sora),即hpcaitech/Open-Sora);Intel 邓伟先生还向我们介绍刊登在Github上的开源Sora:
PKU-YUANGroup/Open-Sora-plan ,Sora Webei/Open AI’s Sora。
现在简单介绍Colossal-AI 团队开发开源Sora的情况:
该团队在OpenAI的Sora实际模型结构未知的情况下复现Open-Sora的,他们参照三种常见的多模态模型结构:ada LN-Zero,Cross-attention,in Context Conditioning(token Concat),复现Open-Sora的。随后他们又对Open-Sora进行性能优化,对未来Open-Sora进行迭代。
我对他们强大的人才支撑感兴趣,介绍如下:
Colossal-AI是潞晨科技旗下著名的开源平台,2023年2月便复现ChatGPT模型将其开源,目前在GitHub已超过36000颗星,显示技术实力强大
开源地址:https://github.com/hpcaitech/open-sora?tab=readme-ov-file
潞晨科技创始人尤洋教授是加州大学伯克利分校博士,被福布斯评选为30岁以下精英(亚洲2021),IEEE-CS超算杰出新人奖;
潞晨科技首席战略官James Demmel是加州大学伯克利分校杰出教授,ACM Fellow,IEEE Fellow,美国科学院院士,美国工程院院士,美国艺术与科学院院士;
潞晨科技CTO卞正达,毕业于新加坡国立大学,师从尤洋教授,7年高性能AI系统经验,Colossal-AI系统核心开发者。
在会上,陆主席谈“学习辛顿讲话:数字智能会取代生物智能吗?”全文如下:
学习辛顿讲话:“数字智能会取代生物智能吗?”的体会
陆首群 2024.3.7
人工智能大师杰弗里·辛顿(Geoffrey Hinton)于2024年2月19日在牛津大学发表了年度罗曼讲座,讲题是:数字智能会取代生物智能吗?
辛顿大师在这次讲演中,他对人工智能的哲学基础和未来的走向,以及如何理解人工智能的本质和潜在影响提出了自己的重要思考和评论,具有深远意义。
自上世纪六七十年代以来,两大智能研究学派:符号主义与连接主义在推动人工智能发展中取得了不少成绩,但也引发了激烈的争论。一些人工智能专家认为,两大学派单打独斗,均具有片面性,不可能指引未来人工智能向前发展。辛顿虽然对两大学派进行了点评,但他还是基本肯定的,主张兼容和改进。
他提出自1950年以来出现的两大智能研究范式:即逻辑启发式(数字智能)和生物启发式(生物智能),逻辑启发范式将智能视为基于规则的推理过程,即通过大量数据中的统计方法,以及理解/推理/生成机制,形成强化处理自然语言能力,不仅涉及语法和词汇的统计匹配,而且包含对语境、情感和语义的深度处理,并引出生成式人工智能(AIGC);而生物启发范式则认为智能根源于通过学习来调整神经网络中的连接强度,使其能更好地模拟大脑学习过程,对于实现认知智能至关重要,只有加强学习才能克服其对有效处理自然语言的复杂性和模糊性不力的影响,并引出通用人工智能(AGI)。
据辛顿思路,符号主义学派(功能模拟)可纳入生物启发范式(生物智能)的范畴,而属于符号主义学派的神经拟态网络(类脑计算系统)脑机接口系统自然可纳入生物启发范式的范畴;连接主义学派(结构模拟)可纳入逻辑启发范式(教学智能)的范畴,而属于连接主义学派的机器学习/深度学习的可解释性、大模型、新知识工程以及行为模拟(行为主义学派可并入连接主义学派),自然也可纳入逻辑启发范式的范畴。
早在5年前,COPU在“评人工智能如何走向新阶段?”时,提出了下列5条发展路径,即①神经拟态计算网络(类脑计算系统),②可解释性机器学习/深度学习,③新知识工程,④脑机接口算法,⑤大模型(这是后期添加的)。今天我们感到非常幸运,辛顿在他的讲座中肯定了我们对人工智能发展提出的各条路径。
下面谈谈辛顿在他的这篇讲话中涉及对大模型的一些看法:
①他批驳有人把GPT简化为高级文字接龙的观点,他解释说,这些模型通过学习大量数据中的统计规律能够构建对世界的深层次理解,这一过程涉及到特征之间的复杂交互,这种理解是通过算法和数据学习得来的结果,体现在他们能够生成连贯、逻辑一致且富有创造性的文本,这突破了简单自动完成工具的局限,展现了对语言复杂性的深层次把握。
②他谈到包括MPT大模型在内AI的潜在风险与未来展望。他探讨了AI发展潜在的风险,包括虚假信息的传播、(出错、制造幻觉)大规模失业、监控以及自主武器系统的威胁。
辛顿对数字与模拟神经网络之间的区别进行了讨论:强调数字神经网络的优势,缺点是在运行时需要更多能量(Altman认为MPT、Sora耗能大,他也在推动核聚变项目),优点是在信息存储和处理能力方面远超模拟网络;GPT在知识积累和分享方面具有明显优势,这种优势来自于能够在众多处理单元之间快速、精确地复制和传播权重知识,这是生物大脑无法比拟的。
辛顿指出在追求技术进步同时,必须考虑人类社会文明的长远影响。
补充一则与辛顿(Geoffray Hinton)有关探索人工智能发展路径的信息:
早在2019年,智能大师Yoshue Bengio与Geoffrey Hinton、YanLe Cun、John-Hopcroft曾提出:要打破深度学习中的黑盒子实现可解释性人工智能,探索人工智能的发展路径,在国内信息技术资深专家姚期智、沈向洋也作出相同的呼吁。
本次会议通报一则信息:
金砖国家通过决定,成员国之间实行基于(去中心化的)区块链支持的数字货币的支付系统。
参会人员:陆首群、刘澎、陈钟、梁志辉、章文嵩、丁蔚、安泱、张侃、董世晓、鞠东颖、陈伟(线上)、田忠(线上)、隆云滔(线上)、陈越(线上)。