COPU会议纪要丨2024.10.08

2024-10-12 12:04:39 25

图片关键词

10月8日，陆主席主持召开COPU例会。

开放原子开源基金会理事长程晓明拜访陆主席和COPU。

本次会议首先发表四则简讯：

一、英伟达CEO黄仁勋在最近(2024、9)的一次讲话中，谈到要把 Al数据中心(超算中心)建在天上他认为，随着AI的发展(通用人工智能/AGI很快会到来)遇到最大的挑战是能源问题。GPT-4一次训练，在25000块A版GPU卡的AI数据中心中一次训练需要3个月时间、用掉2.4亿度电。建在天上的AI数据中心，因太空很冷，计算设备冷却问题不再突出，且可以利用太阳能，提供能源的持续供应。英伟达将投资一家初创公司 Lumen Orbit建设天上AI数据中心，将比最近马斯克建设10万张卡机身的数据中心更浪漫。天上AI数据中心于明年就将发射第一颗卫星(采用马斯克的星链卫星，其中GPU方性能为现在的100倍)，以后再发射第二颗卫星，使AI数据中心达到千兆瓦级规模。

二、马斯克谈奥特受改变OpenAI的性质(从开源变为闭源）马斯克( Elon Musk)谈到他与奥特曼( Sam Altman)一起创建open AI（公司)，商定为一家开源的非盈利性公司，公司的名字也是马斯克起的。现在奥特曼把它改变为闭源的营利性公司，(奥特曼也持有股票100多亿美元)，进背了当时创业的初衷。现在初创公司时的原始职工相继离职，就剩下奥特曼这个“小指头”了。

三、奥特曼( Sam Altman)谈超级人工智能(ASI)最近OpenAI CEO 奥特曼著作长文，谈超级人工智能(ASI)问题。他说：具有超级智能、超越人类的ASI要来了，ASI不能超越人类智能一万倍，它可预测像人类生命分子组成等复杂问题。奥特曼似乎认为人类还能掌控ASI？！到时人类个人的AI助手将无比强大?！至此奥特曼欲言又止！人们将对他的说法产生怀疑：一个智能超越人类一万倍的ASI如何还会为人类所掌控?(一个实行研发、封闭、在全球分割、运作、垄断性的ASI、为何不能对全人类进行反制？！

四、最近库兹韦尔和辛顿两位人工智能大师交谈，颠覆了对人工智能深层次的认知他们认为，人工智能可能超越人类，具有不可预测性，对人工智能的创造性不能低估。在他们的谈话中，特别是挑战意识的特定观念(如对心灵的看法)。

接着，本次会议发表：一场《草莓”-o1模型小型讨论会》纪要

一场《草莓”-o1模型小型讨论会》纪要

COPU 2024.09.24

9月24日， COPU举行《“草莓”-o1模型小型讨论会》，邀请北京智源研究院杨耀东研究员参加讨论并作主要发言，以及接受回答。会前，COPU准备了一批提问如下：

1)讨论o1模型的概念，它有哪些主要特点?

2)为什么说强化学习是o1模型的技术基础?

3)如何理解o1模型全面超越了GPT-4o或刷新了SOTA? o1模型能否减少生成式语言模型天生的缺陷?

4)如何理解o1模型具有超强的推理能力?

5)OpenAI o1模型在“后训练”扩充律post-Training Scaling Laws下，如何提升推理能力和长程问题能力？

6)COPU提出各智能体具备推理能力的分级情况，希望在讨论会上进行鉴别

推理能力分级：

具有1级推理能力·chat bots，语言交流，

具有2级推理能力·Reasoners，个人问答；o1模型

具有3级推理能力·LLMOS，大模型操作系统

具有4级推理能力·Agents，能够行动的智能体

具有5级推理能力·AGI，通用人工智能

在讨论会上重点谈到下列问题：

1)语料数据问题在语料数据搜集中，开始人们选择日常使用的数据，随着数据量需求的增加，发展到选择行业数据、互联网海量数据，人工智能的发展使上述数据来源已不敷需要，开始创造合成数据，合成数据虽然能满足语料数据量增长的需求，但也出现了数据污染的问题。生成式语言大模型产生缺陷，与机器依赖于统计技术有关，也与语料数据的污染有关。

2)“后训练”时代已经到来过去我们对语言大模型抓预训练，直到对齐，由Open AI开发的o1模型开启了“后训练”(以增加推理能力)。据北京大学对齐团队独家解释：新的扩展律 post-Training已经出现，后训练时代已经到来。强化学习成为o1模型的技术基础。)o1的技术基础，针对后训练，在学习与搜索选择中选择学习，强化学习成为o1模型的技术基础。在思考链中，GPT-4属于快思考(选择搜索)，o1属于慢思考(因为推理)。o1模型在哪些地方超越 GPT-4o?

①推理占先的性能，o1表现优秀(或者说，o1整型在复杂推理、数学和代码问题上，提升到一个全新高度，优于LLM的水平）在数学代码、竞争性编程、数学奥林匹克竞赛、物理/生物/化学博士考试等推理占先的性能方面，o1优于GPT-4o

②解决语言大模型存在的缺陷问题上，o1优于GPT-4o总的来说，o1推理能力强，通用能力弱；o1与GDT-4o比,其写作能力并未提高，指令跟踪也未超越。
在会上，对在o1模型上，对识别两组数字的准确率进行演习：

鉴于以往我们在生成式语言大模型(如GPT-4)识别9.11与9.9两组数字时，往往会答出9.11>9.9的错误结论，在本次会上，我们也对o1模型进行同样的识别游戏，答出了9.9＞9.11的正确结论。
在线上参加COPU小型讨论会的一位朋友(韩宪平）7点质疑：

1) Post training 工作还属于 train-time Scaing阶段，跟 pre-training一样类似于普通软件的源码、编译阶段，而o1的创新主要在 test-time Compute类似于 runtime阶段，选有Ilya署名的文章“ Lets Verify step by step”有条件的单位应该多做实验了，给数学的“因为…，所以…”标注给正确的和不正确的 intermediate rationals 加 reward，生成思维链CoT

2) o1应该有一个PRM Verifier验证网络不停地比较reward大小

3）PRM=process Reward Models

4)“后训练时代来了”显然是错误判断

5) Post-training与 inference并不相同, inference是“ test-time Compute”

6)更多算力不是投入 post-training而是 inference Scaling

7) inference有点类似通常说的 runtime

COPU陆主席请杨耀东研究员作答。

杨老师并不认同韩宪平的意见，推荐OpenAI o1技术分析：强化学习“后训练”时代来了的文章：

为什么我们需要 post-Training Scaling Laws?

pre-training 阶段Scaling Laws

随着模型尺寸逐渐增大，预训练阶段产数 Scaling Up带来的边缘收益开始递减，如果想深度提升模型推理能力和长程问题能力，基于RL 的 post-Training 将会成为下一个突破口。自回归模型在数学推理问题上很难进一步的一点在于没有办法进行回答的自主修正，如果仅是依靠生成式方法和扩大参数规模，那么在数学推理任务上带来的收益不会太大，所以需要寻找额外的Scaling Laws。

恰在此时，智源研究院理事长黄铁军教授为支持我们o1模型的讨论，也转来北京大学对齐团队（指导：杨耀东）独家解读的文章：

OpenAI o1开启“后训练”如下：

新的扩展律 post-Training 已经出现,后训练的时代已经到来。

OpenAI o1开启“后训练”时代学习新范式。

Open AI o1在数学、代码、长程规划上取得显著进步。

2023年, Deep-mind的CEO Demis Hassabis强调用 Tree Search来增强模型的推理能力。在o1上训练中也用到 Tree Search的技巧。

实际上，OpenAI o1运用的技术关键还是在于强化学习的投索与学习机制。基于LLM已有的推理能力，迭代式的 Boot strap模型产生合理推理过程( Rationales)的能力,并将 Rationales融入到训练过程内，让模型学会进行推理，而后再运用足够强大的计算量实现 Post-Training阶段的 Scaling。

注意这里合理推理过程并不只是对问题的拆解和初步作答，还有对于为什么如此作答的分析和思考。

技术要点有三：

1、后训练扩展律 post-Training Scaling Laws已经出现,并且 Post-Training Scaling Laws为上述技术路径的成功提供了有力的支持。

2、模型学习的是产生合理批理的过程，MCTS在其中的作用是诱导合理推理过程的产生或构建相应的偏序对形式细粒度奖励信号，而非直接搜索过程和最终答案。

3、模型的 Boot Strap有助于构建新的高质量数据，并且新的 Retionates 数据促进了模型进一步提升能力。

Open AI o1的发布是 Post-Training Scaling Laws 的强力体现。

北京时间9月13日午夜OpenAI发布o1系列模型，旨在专门解决难题。

Open AI o1的成功离不开后训练阶段( Post-Training Stage)中强化学习训练和推理阶段思考计算量的增大。新的扩展律——“后训练”扩展律( Post-Training Scaling Laws)可能引发社区对于算力分配、后训练能力的重新思考。

OpenAI o1在数学代码等复杂推理能力上取得巨大进步。帮助o1取得如此性能飞跃的是 Post-Training 阶段RL计算量的Scaling和测量推理阶段思考时间的Scaling。

Open AI o1在一些常规任务上没有显著提升，推理能力和强指令似乎呈现了分离。在“后训练”扩展律( post-Training Scaling Law)下,训练阶段的计算不再只是和参数量的上升有关，同时也会包含RL探索时LLM Inference的计算量，测试阶段模型推理和反思的计算量也会影响模型最终的表现。

随着更多的强化学习(训练时计算)和更多的是思考时间(测试时计算，o1的性能也在不断提升。随着参数扩展律的边际效益逐渐递减，应将更多算力转向 Post-Training阶段和推理阶段。

Open AI的成功，关键在于合理使用强化学习的探索仅靠蒙特卡洛树搜索（MCTS)是远远不够的，因为仅靠MCTS无法让模型学会思考问题的关联。在隐式自动化CoT背后，是模型真正学会了合理的中间推理过程Rationales。通过思维链( chain of Thought,COT)优化模型输出,因为该思维链在其生成过程中有助于增强模型的推理能力(尤其在数学和代码生成等任务中表现出色)。

9月29日韩老师发文：我明白了他们说的“后训练”是指的 post—( pre-train+post-train),训练阶段是给知识编码，参数就固定不再调整了。说“推理时代来了”多好。推理也是陆总最先提出的。

参会人员：陆首群、刘澎、陈钟、章文嵩、宋可为、陈道清、谭中意、陈伟、安泱、张侃、孟迎霞、荆琦、鞠东颖、韩宪平（线上）、胡宇Anna.Ai（线上）。

开源通讯

COPU会议纪要丨2024.10.08

一场《草莓”-o1模型小型讨论会》纪要

关于联盟

开源通讯

开源活动

开源研报