开源通讯

COPU会议纪要2024.04.09

2024-04-09 14:00:42 61

图片关键词

4月9日陆主席主持COPU例会。

本次会议将讨论人工智能的发展路径。

早在5年前COPU就提出从机器学习/深度学习(弱人工智能)出发,探索走向通用人工智能/AGI(强人工智能)的发展路径(包括走向生成式人工智能/AIGC),我们正在探索、研发的有6条发展路径。即:①打破机器学习/深度学习黑盒子研发可解释的人工智能,

②基于异步脉冲神经网络的神经拟态计算系统(类脑计算机),

③语言大模型的研发,

④新知识工程的研发(以数据知识双驱动,以大规模语义网络为背景,探索认知智能解决方案),

⑤脑机接口的理论和实践,

⑥探索下一代(新)通用人工智能或机制主义人工智能。

现在看来除第⑥条正在探索外,其他5条均有所进展。

关于第①条研发可解释性人工智能,迄今国内外已提出数以百条解决案例,但在改善可解释性机器学习/深度学习的鲁棒性和评估的精确度方面,尚有解决改进的余地。

关于第②条研制类脑计算机,英特尔公司、曼彻斯特大学、浙江大学均已制成原型机,已进行(或准备)试运行,去年年底,粤港澳脑智工程中心在横琴国际科技创新中心举行他们研制的类脑计算机产品发布会。这4家研制单位公布的类脑计算机神经元分别是:英特尔1亿个神经元,曼大10亿个神经元,浙大1.2亿个神经元,粤港澳脑智工程中心2亿个神经元。

关于第③条语言大模型的研发目前在全球大热,中方主要是追踪OpenAI的研发进展和节奏,未来大模型的研发和投入运行,算力、能源、投资均是其重要支撑。

关于第④条与第③条的解决有相关性,当资料中心的参数量(预训练)增长到足够大时,突发推理性质的“涌现”,而推理能力将为实现认知智能创造条件。

关于第⑤条研究脑机接口问题,在国内外已有上百个案例。

关于第⑥条主要是由某些人工智能资深专家提出的,他们的理论探索正在进行中,离实施解决方案尚有很大距离。

下面我们讨论语言大模型发展中的若干问题。

大模型训练出现巨量参数

语言大模型预训练将出现巨量参数,预训练参数将从几万亿上升到几十万亿~上百万亿,如GPT-3预训练参数将升至token 45TB(45万亿)、ChatGPT预训练参数升至token 100TB(100万亿)。

大模型需要强大算力支撑

未来语言大模型预训练出现巨量参数需要强大的算力支撑。在上次会议上我们讨论:英伟达超级芯片系统GB-200的算力为单颗芯片H100算力的30倍、A100的100倍(而H100单颗芯片算力为4000TFLops)。华为昇腾9106的算力与英伟达的A100相当,当然GB200的算力也是910b的100倍。

英伟达GB200是由两颗B200 + 一颗ARMCPU + 内存网络控制器集成的。英伟达联合创始人兼CEO黄仁勋谈:华为是英伟达潜在的对手。

我们在3月16日COPU例会上谈:华为早就掌握了芯片的堆叠技术,完全可以做到像GB-200那样将单颗芯片(如9106)的算力提升100倍;另外,中科院和中国电科联合研制的光量子芯片生产线也已建成,采用在该生产线上流片的910b将其算力提升100倍也无问题(4月4日央视“今日头条”报导,证实了COPU的预言)。

关于建设大规模集群中心的问题

奥特曼去年11月13日透漏正在开始开发语言大模型GPT-5,在英伟达超级芯片发布会上,OpenAI与英伟达提出了一个建设语言大模型Sora集群中心的方案,需要集成7200颗/卡H100芯片,按美国售价每颗/卡芯片3万美元,Sora集群中心方案仅芯片一次性投入达400亿美元,如采购华为910b芯片(每颗/卡芯片1.5万美元),一次性芯片投资也需要100亿美元。加上整个中心建设资金,大约需投入几千亿美元资金。

OpenAI与英伟达在谈到研发GPT-6时,从2028年起至2030年,将部署10万颗/卡H100芯片建设大模型GPT-6的训练集群,号称“星际之门”集成10万颗/卡H100芯片,仅芯片一次性投资预计为56亿美元,整个中心建设投资为几万亿美元。

大参数、大算力、大能源、大投资建设“星际之门”

由此看来,建设一个大模型集群中心(从大模型Sora集群中心到“星际之门”)需要巨大的训练参数(百万个参数量),需要巨大的算力和巨大的能源(“星际之门”需要5000MW电力),还需要巨大投资(从几千亿美元到几万亿美元)。有关专家估计,这项生成式人工智能集群中心巨型建设工程不是一般个人或企业所能承担的,可能需要由极少数大国以举国之力来建设。四大(大参数、大算力、大能源、大投资建设)既是推动这项人工智能大型建设工程的动力,也可能是制约这项大型工程发展的因素。

参会人员:陈钟、梁志辉、谭中意、宋可为、陈伟、章文嵩、安泱、张侃、程海旭、陈道清、陈越、鞠东颖。

首页
秘书处
开源通讯
开源活动