开源通讯

COPU会议纪要2023.09.19

2023-09-19 14:00:50 64

图片关键词

9月19日陆主席主持召开COPU例会,本次会议讨论了大模型发展的起步、路径和未来。

大模型发展的起步、路径和未来

起步:

本世纪初自然语言处理(NLP)研究问世,人们曾设想将NLP看作人类与机器沟通的中介,靠它来理解、处理和运用自然语言。

大模型发展是以研究NLP起步的。谷歌、微软、OpenAI、百度等在起步阶段探索中都作出了贡献。NLP的研究任务是企图促使机器能够读懂或理解自然语言,当时遇到的最大阻力是常识(以及专业知识、专家经验等)问题,由于机器缺乏常识(或者机器不识别自然语言知识中的常识),它将给NLP的研究带来很大的困难,此时建立类似于字库的常识库(后来发展为语义网络或语料库)是补充其不足的办法。在不断扩大库容(或不断增加库内参数量)时,将不断提高机器识别常识或理解自然语言的能力。

当初NLP的主要任务是机器翻译、文本摘要、语言识别、问答系统等多种语言任务。

增加常识库(或语料库)库容或将参数量提高到一定程度后,将引起机器在理解自然语言方面取得飞跃,与此同时,通过对巨大的、未标记的数据进行预训练,更可熟练掌握自然语言,提高、稳定、完善自然语言网络。

NLP发展时期,谷歌发布BERT通用语言预训练模型(2018),OpenAI发布GPT-2通用语言模型(2019,2),微软发布NT-DNN预训练模型(2019,6),百度也于2019年发布ERNIE增强语义理解框架,上述预训练模型大多采用Transformer基础架构。在处理NLP多种语言任务时进行预测训练,用以对NLP进行微调。

路径:

大模型的研究任务将发展或转变为大规模的多任务、多模态语言/文本模型的开发和应用,并发展到未来通用人工智能/AGI的开发和应用。

我们在以前的COPU例会上谈到大模型的发展路径,为新知识工程的发展路径,即:

数据知识驱动→知识融合→知识表示→知识推理→知识生成→知识建模

下面谈其中的几个发展节点

知识理解(位于知识表示或知识图谱中),让机器理解自然语言,即让机器能听懂人话;

知识推理(这是打通知识建模的核心节点),让机器能像人类一样具有推理能力;

知识生成(推理是生成的关键),让机器能用自然语言与人类对话,或让机器会讲人话;

知识建模(实现认知智能),即通向通用人工智能/AGI。

在大模型的发展路径上,核心问题还是如何形成推理能力。奥特曼说,他非常重视ChatGPT突然出现令人费解的推理能力。他还认为大模型的推理能力是促使机器生成人类自然语言的关键,也是推动大模型走向通用人工智能/AGI的核心问题。

在不断增大语料库库容或不断增加其参数量时,依靠深度学习的统计方法,促使语料库中的语料集不断逼近自然语言目标集,当逼近达到一定程度后可使大模型突发涌现现象,形成推理能力。

大模型预训练模型也从BERT、ERNIE等发展到+RLHF(人类反馈预训练模型),进一步发展到稳定性高的+机器人反馈预训练模型,最近又发展为token预训练模型(以互联网海量级数据进行预训练)。

据不完全统计,全球迄今已有数百家机构正在开发大模型,其中以中美居多(美中比率约为5:1)。

下面列出一些典型的大模型:

GPT-3、GPT-3.5、ChatGPT,1750亿参数;

GPT-4,3300亿参数(小羊驼),1.76万亿token预训练;

Llama-2,1500亿参数,2万亿token预训练;

Falcon,1800亿参数,3.5万亿token预训练。

国内主要大模型有:

百度的文心一言,华为的盘古,鹏城的盘古α,智源的悟道,商汤的商量SenseChat,360的 360智商,阿里云的通义千问,讯飞的星火,中科院的紫东太初,清华系的智谱华章,抖音的云雀,腾讯的混元等。

国内大模型不少也具备上千亿的参数量。

在国内外大模型中约80%是开源的。

Gartner发布了大模型技术成熟度曲线,该曲线表明:全球大模型的发展处于期望膨胀阶段。

全球先进的大模型正在催生人工智能新范式,GPT大模型已可看到通向通用人工智能/AGI(强人工智能)的曙光,但全球大模型尚未解决的问题还很多。总体上还不够成熟。

未来:

现在看来,大模型GPT可能率先进入强人工智能领域,即将实现通用人工智能/AGI。

奥特曼和马斯克均指出:过分强大的人工智能或AGI有可能给人类带来安全威胁,他们甚至危言耸听说:AGI可能会杀死人类!

当大模型GPT发展到抵近实现AGI前夜的今天,奥特曼强调要把研究GPT发展的重点放在解决安全问题上(他决定暂停研究发展GPT-5以及开源要收缩一下)。

2023年6月16日COPU召开的《圆桌会议》上几位大师(Jim Zemlin、Brian Behlenderf等)不同意奥特曼在发展大模型MPT时收缩开源的做法,他们认为在大模型GPT(含ChatGPT)发展研究的每个环节均要实行开源透明,开源的介入可以使大模型GPT在发展中表现得更安全。Brian更指出,要解决人工智能或大模型GPT发展到AGI后可能给人类带来安全问题的解决方案,主要依靠全球开源社区的力量。

参加本次例会的人员:陆首群、陈越、梁志辉、谭中意、宋可为、陈伟、张侃、安泱、刘巍巍


首页
秘书处
开源通讯
开源活动