COPU会议纪要丨2024.10.22
10月22日,陆主席主持召开COPU例会。
会上宣布两则信息:
(一)中国科学院一支科研团队推出一款新型光学处理器,标志着光子计算技术崛起!作为一种全新的计算方式,光子技术利用光的特性进行信息处理,展现出前所未有的计算能力和能效。
(二)COPU讯: 英伟达宣布停止接受中国算力芯片新订单。
COPU认为,国内应对之策唯有加强自主可控算力芯片的研发力度,以打破国外的技术封锁。
下面谈一下图灵奖获得者、人工智能大师、Meta首席科学家杨立昆(Yann LeCun)2024年9月10日在哈德逊论坛上做了“人类水平的AI”的演讲,很多观点属于惊人之举~由于篇幅太长本期例会就不发表了。陈伟的译稿寄来了。现摘录LeCun的一些精彩观点,发表出来让大家先睹为快!
他说:“纯语言模型到不了人类水平,我们基本已放弃。”现在全球火红的语言大模型LLM是不是纯语言的?是否会打入冷宫?成为乐极生悲!
他说:“奥特曼、马斯克、 Anthropic 的CEO都纷纷将通用人工智能(AGI)的实现锚定在2026年前后,完全胡说八道”,无疑是直接浇了冷水!
他还说:“语言模型要推理、规划和理解物理世界,至少还需要几年甚至10年时间,这时人工智能才能达到人类水平”,这与奥特曼很快就能达到AGI,甚至达到ASI(超级人工智能),而且可能超越人类,两种说法差距很大!
我希望大家冷静对待,深入研究。
其实LeCun的上述观点,我们COPU早先也曾思考过(也间接印证了我们COPU的AI素养):
我们早在2010年就曾提出依托实体经济(工业互联网),理解物理世界发展人工智能,怀疑仅凭依托语言模型能否全面发展人工智能?!(这是有书为证的)。
我们也在《人工智能文集》十九集上刊登 Keras(深度学习)之父、谷歌AI研究员Francois Chollet 批评奥特曼的闭源策略,批评他使AGI人工智能延后倒退5~10年,这与LeCun的批评是一致的(LeCun说大模型要推理规划、理解物理世界就需要5~10年)。
LeCun还提出联合嵌入预测架构(JEPA),这是否是我在20年前提出的“基于知识社会的创新2.0”的翻版,有待研究。
在本次例会上,我们发表斯坦福大学 Percy Liang研究团队撰写的《对治理开源基础模型的思考》的文章(在“开源AI”与“闭源AI”选择中他们优选“开源AI”),及由COPU组织的《关于发展开源基础模型兴利除弊的讨论》的文章,供大家研究参考。
对治理开源基础模型的思考
Percy Liang, Rishi BommaSani等
(COPU 节录)
COPU编者按:本文作者为斯坦福大学基础模型研究中心主任 Percy Liang、研究员 Rishi Bommasani等10位高校学者,在《Science》杂志(2024.10.11,第386卷6718期)上刊文:“Considerations for governing open foundation models”,探讨了开源模型三个优势、六个风险和三个潜在不利影响。
本文作者重点关注开源基础模型的兴利除弊。我们拟另外开辟专题讨论,结合本文作者的意见扩大讨论范围,重点讨论如何消除开源基础模型下游可能为黑客恶意利用的弊端。
对治理开源基础模型的思考(节录)
开源基础模型在推动科技创新、促进竞争和权力分配方面具有巨大潜力,但由于模型发布后开发者无法控制其下游的使用,容易被恶意黑客利用。因此在推动创新的同时,平衡对AI系统的监管成为一个关键的挑战。
不同的政策建议可能会对创新生态系统产生不均衡的影响,呼吁世界各国制定明确且有效的政策,平衡开源与闭源基础模型的发展,从而促进创新的同时有效管理其潜在的社会风险。
开源基础模型的三个优势是:
①更好的权力分配,②促进创新,③确保透明性。
开源基础模型的发布格局是多维的,不同资产(如训练数据、代码和模型权重)可以对选定实体或公众广泛发布。开源基础模型是运用通用技术,可以显著提高创新速度,增强经济和科学生产力。开源基础模型对于研究可解释性、水印、安全性、效率等多个主题至关重要,更具可定制性并提供深入的访问权限,这是促进更大创新的关键因素。
开源基础模型的六个风险是:
①虚假信息,②生物风险,③网络安全,④鱼叉式网络钓鱼诈骗,
⑤语音克隆诈骗, ⑥NCII和CSAM。
本文对此,重在找到实证;如果风险属实,建议制定有效的政策,或研究防御工具。
开源基础模型的三个潜在不利影响是:
①下游使用责任,②下游使用内容溯源,③开源数据的责任。
本文作者探讨应对下游为黑客恶意利用的潜在不利影响的建议(编者建议拟扩大讨论范围)归纳起来,本文的核心观点如下:
*没有实证证据表明,开源软件比闭源软件更易受到攻击或不安全。
*闭源基础模型可能增大开发者手中的权力,而这种权力集中对数字技术市场的风险是公认的,应受到及严密审视。
*总体而言,开源基础模型更加可以定制并提供更深的访问权限,这些是促进更大创新的关键要素。
*在某些情况下,透明性不仅依赖于模型权重的发布,还包括其他工件的公开,例如披露训练数据和代码有助于可重复性。
*迄今为止,他们尚未发现开源基础模型增加社会对虚假信息宣传敏感性的实证证据。
*关于开源语言模型的担忧可能被误导,专用的生物设计工具反而可能在发现危险病原体方面提供更大的帮助作用。
*与之前自动化漏洞检测工具一样,开源模型的广泛使用,加上公司和政府对发现安全漏洞的工具的投资,可能会加强网络安全。
*开源基础模型的开发者无法控制他们的模型如何使修改或用于生成内容。
*世界各国政府正在制定的政策设计和实施应当同时考虑开源和闭源基础模型开发者的需求。
关于发展开源基础模型兴利除弊的讨论
由COPU组织,2024.10.11
本次讨论的主题是由斯坦福大学 Percy Liang研究团队提出的,COPU将其归纳为:
①如何发展开源基础模型兴利除弊?
②如何消除开源基础模型下游可能为黑客恶意利用的弊端?
回答第①道题, Percy Liang研究团队在《 Science》杂志上发表的“对治理开源基础模型的思考”已有所论述(COPU发表了这篇文章的节录)。
第②道题也是Percy Liang 团队提出的,他们提出解决方案的原则是:重在找到实证;如果风险属实,建议制定有效的政策,或研究防御工具。
为了便于讨论,我们引用人工智能大师李飞飞(斯坦福大学首位红杉讲席教授在谈论为开源基础设施兴利除弊而制定监管政策的讲话,可从原则上回答第②道题。
李飞飞谈, AI监管政策必须鼓励创新。
(开源基础模型的最大优势是创新,这就是李飞飞倾向于支持开源基础模型的原因)。
她谈到:我不反对制定监管政策(政策用以兴利除弊),不反对AI治理,不反对立法(立法对安全、有效推进AI至关重要)。政策制定者正在寻求一种治理方式,以最小化潜在的危害塑造一个安全、以人为本的AI赋能社会。AI监管政策必须鼓励创新,设定适当的限制,并减轻限制的影响,也就是说应制定鼓励创新、安全、有效的政策,不能武断地制定不必要惩罚开发者、抑制开源社区、削弱学术研究、未能解决真正问题的“政策”。
为了回答第②道题,COPU除引述李飞飞大师的指导意见和引用斯坦福研究团队提出的解决方案外,我们还组织了扩大讨论:
COPU章文嵩:我觉得把训练数据都开源的开源基础大模型是更安全的,通过全世界那么多双眼睛来看训练数据集,把不安全的文本从训练数据集中剔除掉,例如,如何制造核武器、化学武器等,就像开源软件通过更多双眼睛来消除软件漏洞bug一样。
COPU:如果将开源基础大模型划分为开源核心的原创和开源模型的商业发行,就可规避下游黑客恶意中伤用来反对监管;当然制定有效的监管政策也能解决问题。引用 Mistral AI CEO Arthur Mensch的话:开源模型没有任何风险,我只看到了好处。
参会人员:陆首群、刘澎、章文嵩、安泱、谭中意、宋可为、张侃、鞠东颖、陈伟(线上)、Anna.AI(线上)、韩宪平(线上)、陈道清(线上)、孟迎霞(线上)。