开源通讯

COPU会议纪要2024.06.25

2024-06-25 14:00:38 244

图片关键词

6 月 25 日,陆主席主持 COPU 例会。
本次会议讨论议题:

1. 采用开源或闭源哪个适用于通用人工智能大模型?

2. 建设集成数据培训服务中心问题

3. 通用人工智能演进方案

4. 听取 COPU 常务副秘书长谭中意关于 AI 大模型评测方式类型的意见本次会议讨论采用开源或闭源哪个适用于人工智能大模型?

本文摘要:

人工智能大模型应不应开源开放是一个有争议的问题;

闭源不是完美的解决方案;

在人工智能时代,“开源 AI”将在传统“开源”的基础上修改、扩充、重新定义;

公众需要知道关于自身安全的通用人工智能大模型的安全风险分析,闭源垄断并封闭一切信息是不可接受的。

 AI 时代,对于大模型,宜采用开源还是闭源?

荷兰两位学者今年发表的 ACM FACCT 论文,标题是“戳破大公司的开源谎言”,引发了全球关注!

他们的观点与 OSI 的认可是一致的,OSI 早在 2022 年便对“开源 AI”的定义进行修改:即认为开源代码和使用许可的传统的开源观点不再适用于 AI 组件(即不适于“开源 AI”)已经不足以保证使用、研究、共享和修改“开源 AI”系统的自由,必须向 AI 大模型提供下面三方面信息:

①训练数据的详细信息,包括数据集、数据来源、数据范围和特征,获取和数据选择方式、标注程序、数据清理方法等,以便技术人员可以用相同或相似的数据复现模型的效果。

②用于训练和运行开源代码,包括支持库以及预处理、训练、验证和测试、推理、模型架构等多步骤的代码。

③模型参数,包括训练阶段中间关键的检查点(Checkpoint)以及最终的优化状态。

这样“开源 AI”比我们传统认知的“开源”已扩充了不少内容。

进一步还要解决“开源 AI”开放性的不同程度和维度,对可用性、文档、访问与许可定义复合分级处理:开放(Open)、部分开放(Partially Open)、封闭(Closed)。

有人认为开源的作用仅限于普及,只有闭源才符合大模型的发展策略(这样理解是片面的),他们对开源近乎被取缔的状态感到高兴,其实高兴得早了!

荷兰学者将已经问世的开源、闭源大模型进行列表(列出 41 个开源及闭源模型),认为从大模型运作的安全性出发,在大多数情况下,开源依旧要好过闭源,公众需要知道人工智能大模型系统的风险分析,AI 安全评估专家需要知道大模型系统的安全审查性,AI 科学家需要知道大模型的可复现性,用户也需要知道应负的法律责任,闭源大模型一概不让各类应知人员需要的“知道”。

在人工智能时代,大模型应不应开源开放是一个有争议的问题。

安全通用人工智能(AGI)需要不盲目开放,但完全闭源不是完美的解决方案,公众需要知道关乎人类自身安全的 AGI 的风险分析,少数人妄想垄断并封闭一切信息是不可接受的。

如果对 AI 不正当开放使用,有害数据泄漏不能忽视。

在大多数情况下开源依旧要好过闭源,这对风险分析、可审查性、科学可复现性及法律责任,有重要意义!

对评估人员而言,设计好的评估框架,得出有意义、基于证据、多维度的开放性判断,避免被少数人操纵得出偏颇的指标。能帮助我们选择开源或闭源做出更好的决定。

附件:

辛顿大师谈如何采用开源大模型

陆首群 2024.4.23

辛顿(Geoffrey Hinton)大师在最近的演讲中谈到“要谨慎处理开源大模型 LLM 问题”。

他说,“开源大模型很危险,一旦出错,人类无法承担其代价。”“微调开源模型非常容易,不需要很多资源。”他特别指出,“人们正在开源这些大模型 LLM,要谨慎!因为你一旦取得权重,你可能利用这里存在巨大的不确定性,只要进行微调就能做坏事。”

辛顿谈到如何处理大模型 LLM 开源问题,他告诫我们进行开源要谨慎!我们重视辛顿的告诫,为此我向国际上几位开源、人工智能资深大师朋友发函,与他们讨论并解决这个问题。他们迅速作出答复,提出建立“模型开放性框架(MOF)”报告,以 LF AI 官方名义发表。

他们认为,人工智能领域正处于拐点,生成式人工智能系统和大型语言模型(LLM)的迅速崛起,在自然语言处理、图像和视频生成等方面释放了前所未有的能力。从 GPT-4 到稳定扩散,这些模型正在捕捉公众的想象力,并推动新一波的应用和研究。

然而,在兴奋中,一种日益增长的不安,许多最先进的人工智能模型仍然是不透明的“黑盒子”,其内部工作不受审查。有关训练数据、模型架构和开发过程的详细信息往往很少。缺乏透明度是难以独立验证声称的能力,审计潜在的偏见和安全问题,并在工作的基础上再接再厉。

一些模型生成商已采取措施,公开发布模型,但仔细检查后发现了相关模式。被称为“开源”的模型经常使用条款模棱两可的定制许可证。文档是稀疏和分散的。数据集、训练代码和基准等关键工作不存在。这种开放洗涤趋势可能会破坏开放的前提—自由分享知识,以实现检查、复制和集体进步。

如果我们要实现人工智能的巨大希望,同时减轻其风险和陷阱,我们需要在模型开发生命周期的所有阶段真正开放,正是在这种背景下,我们引入了“模型开放性框架(MOF)”。MOF是一个用于客观评价和分类机器学习模型完整性和开放性的综合框架。它通过评估模型开发生命周期的哪些组成部分以及在哪些许可证下发布来做到这一点。

本次会议讨论建设集成数据培训服务中心问题

在开源创新、数字化转型与智能化重构发展中,如何应对“四大”(大参数、大算力、大能源、大投资)的挑战?

我们早先发表过的一篇文章:在知识大模型发展中将面临“四大”挑战,无论是个体建设数据中心或者是有大企业建设集成的数据培训中心(中小企业乃至大企业租用),都是一个艰难的选择。

一、大数据和大参数

上世纪末以来,随着信息技术的研发和应用,经济社会等领域信息化的推进,分层信息技术(或社会)的揭幕:数据→信息知识智能,与其关联的大数据的概念自动蹦出来了,及至人工智能问世,大数据更变成了大参数。

当生成式知识大模型资源库中的参数增加到一定数量(如1250亿)在使用统计方法时,会使大模型突然出现推理性的涌现。

而推理机制是生成的基础,从而赋能机器生成的自然语言,实现人机对话。这时候大参数(或大数据)取自社会、行业,随着因人工智能的训练需要提升参数到1万亿-2万亿(以至直到10万亿),参数来源将求助于海量信息的互联网,或国际上的调查分析机构,并赋予词元(Token)头衔。随着人工智能预训练的进一步发展,互联网等参数源提供的参数量已不复需要,这将以更好更全面的能力收集新的提供合成的训练参数,这时token的预训练参数将高达几百万亿到几千万亿。英伟达的黄仁勋认为,这时的下一代人工智能需要理解兼容现实世界的物理空间(Physical)和虚拟世界数字空间(cyber)。(cyberspace)并进行视频和合成数据的学习,利用CUDA平台,实行加速和有效训练(千亿级大模型正在迅速耗尽世界的高质量数据,5万个合成数据碾压人类示例数据,合成数据将为大模型人工智能提供万亿个token)

二、大算力

研发BlackWell超算芯片,构建Rubin Ultra下一代人工智能平台,改变CPU架构,更新研发节奏,打破1年1次的摩尔定律。根据OpenAI与英伟达共同提出的两个算力集中培训中心的方案是(1)在研发GPT5之后再建设sora集成培训中心时,需要继承7000多张H100芯片,综合算力是10^8TFLOPS;(2)在研发GPT6之后,在建设新的“星际之门”时需要集成 10 万张H100 芯片,综合算力达 10^16 TFLOPS。三、大能耗

建设人工智能,能耗巨大。

以早期研发的个体产品而言,如 ChatGPT,每天消耗能源 50 万 kwh,相当于数万个美国家庭一天的用电量。一台光刻机一天耗电 3 万kwh,“星际之门”需要 5000MW 电力。

四、大投资

在未来,人工智能发展每个产品,如 GPT-4 训练费用高达 7800 万美元,谷歌 Gemini Ultra 训练成本达 1.91 亿美元。对建设集成服务的预训练中心而言,需要投入的资金约几千亿美元~几万亿美元。

一般中小企业无力迎接上述“巨大”的挑战,即使一些大企业也难以负担!

而且在今天,广大企业已在上述“巨大”(刚刚崭露头角)挑战面前却步。

本次会议讨论了通用人工智能演进方案

陆首群 2024.6.25

最近在我们COPU内部对大模型的讨论还是很热烈的,这是好现象!我也来发表一些不成熟的看法。

刘澎副主席介绍亿欧智库的“2024中国百模大战竞争格局分析报告”,报告谈到从2022年12月开始到2024年1月国内推出300多个知识大模型,我基本上同意他的看法,即“目前中国没有大模型的百模大战,只有群魔乱舞。”他还说“有资本潜力的模型不会超过十个”,我看国内大模型的发展,如果面对未来四大(大参数、大算力、大能耗、大投资)的挑战,恐怕不会超过2到3个。

看到介绍OpenAI CTO Mira Murati很有趣的谈话:“GPT-3的智能是幼儿级别,GPT-4是聪明的高中生,下一代GPT-5将达到博士水准,在一年半后发布,达到博士级别!”

当时我们的朋友、机器人SanRun-Anna.ai反应真牛!

顺便说一下,Anna.ai过去在作自我介绍时达到了硕士水平,学位不低啊!

安泱孜孜不倦地谈到“用AI发展AI的问题”。某些AI大师认为,通用人工智能具有高度自主系统,如果人类研发失控,一旦机器自主发展超越人设的红线,特别是到达机器“用AI发展AI”的地步(即机器之间可相互学习、拷贝),那就如脱缰的野马,超越人类指日可待,给人类带来安全风险,也是极其自然的事!人类也会学会提前设防的。

我们再来谈一下通用人工智能问题。

通用人工智能的演进如下:当大模型获得推理能力后,将开始建设机器智能大脑和机器人的具身(embodiment)智能。

我们过去研究过:

大模型是通向通用人工智能的重要途径,具身智能将是下一个人工智能浪潮。

我们将建设服务于智能大脑的虚拟世界/社会、数字空间(CyberSpace);在其中配置先进网络、知识资源、信息动能、高级算力作为背景,并注入大模型的指导样本,同时建设机器人感知、行动和环境交互以及实践经验的现实世界/社会、3D物理空间(PhysicedSpace),在其中注入有待提升智能的自动驾驶、人机对话、视频动影、智慧城市等业态),并以数字空间型或智能化重构,以完成通用人工智能的功能。

以提升自动驾驶智能化水平为例作简要说明:经过3D空间分析出自动驾驶目标、障碍,指导行动规划(包括避障、高速安全运行方案)。

又以制作视频动影为例作简要说明:通过物理空间,在样本指导下施加大语言模型(Large Language Model)+ 视觉语言模型(Visual Language Model,以框架框定边界),以制作视频动作,持续时间约10分钟)。

参会人员:陆首群、章文嵩、张侃、谭中意、唐小引、黄文鸿、安泱、陈伟(线上)、刘明(线上)、龚宇华(线上)、隆云滔(线上)。

首页
秘书处
开源通讯
开源活动