COPU会议纪要丨2025.02.25
COPU开源联盟
2025年02月25日 14:53 北京
2月25日,陆主席主持召开COPU例会。
在今天开会讨论正式议题前,我先谈一下昨天我在中央电视台“今日头条(发现)”平台上写了一个短评,在“梁文锋的死对头李飞飞出现了”一文之后,排在28个评论(这些评论几乎是对李飞飞一片讨伐之声)之后。我刚落笔,编辑便出来讲话:“你的评论科学公正,我们将其置于全部评论之前的头条,以便让更多人观看。”
我的短评是:“应该正确评论李飞飞”。
李飞飞这次训练出S1 的AI 推理模型不是打压梁文锋的DeepSeek,而只是验证由梁文锋首创的以低成本、高效率研发AI的这条新路是否能走通?!
李飞飞曾公开说明:她训练S1不是从0开始,数据取自谷歌,训练是在阿里云 Qwen大模型上进行微调,S1无意与DeepSeek竞争,李飞飞凭她在全球AI世界的名声也无必要借用梁文锋的光环。希望点评公正,事出有据,切忌操作!
会议讨论 DeepSeek 有关问题:
1)开源AI基座大模型:DeepSeek-V₁, V₂, V₃
开发者:深度求索(DeepSeek)公司(2023年7月17日成立)
发布:2024年5月7日发布-V₂,2024年12月26日发布-V₃
可类比于:GPT-3, GPT-4, BERT(+ChatGPT)
主要用于:语言生成、语言理解、文本分类、翻译等任务
2)开源推理大模型:DeepSeek-R1, KIMI, K1.5
开发者:DeepSeek-RI(由深度求索公司开发)
KIMI, K1.5(由月之暗面/MoonShot AI公司开发)
发布:2025年1月20日
可类比于:GPTo1, o3, o4
主要用于:推理大模型是在基座大模型基础上,强化了推理、逻辑分析和决策能力等思维链(CoT)能力,在逻辑推理、数学推理和实时问题解决方面表现突出。
会议还讨论 DeepSeek 在低成本、低资源条件下,实现高效率训练,以期达到大模型具有高智能的目的,走出一条发展AI的新路。
3)DeepSeek以低成本高效率走出发展AI新路,关键是立足于开源。
开发相当规模的大模型,传统的开发费用约1亿美元,而DeepSeek的开发费用只有600万美元。DeepSeek取得重大成功在开源,并利用了开源的价值。
4)降低 DeepSeek-V₃, R1 训练成本问题
4-1)大模型 DeepSeek-V₃, R1:依靠671B参数大模型(+MHA, NonMoE),设训练成本为1,训练费用约为1.1亿美元。
4-2)DeepSeek-V₃, R1, ,671B参数大模型(+MLA, +MOE),训练成本相对为1/20,训练费用约600万美元。
(Deep Seek-MoE16B:训练成本为1/23,训练费用约560万美元)
4-3)清华方案:清华大学Cache AI团队与趋境科技合作开发Ktransformers,单张RTX 4090显卡就能流畅运行7B模型版本(16GB显存)。训练成本相对为1/6000,训练费用约2万美元。
5)有待核实 Gary Marcus 教授意见:
纽约大学教授Gary Marcus在《Fortune》杂志上发文,分析DeepSeek聊天机器人,指出8条意见,其中他提到:
DeepSeek的训练(确实)成本低,但逻辑推理成本仍然昂贵,其运行推理很贵?!对于他说的运用费用很贵似不实,有待深入调研。
下面谈谈近来在全世界的开源与闭源之争!
天津大学于今年2月22日编辑出版《Deep Seek开源手册》,他们在谈到开源与闭源之争时有一些论点我很欣赏,他们说:
①DeepSeek发布最核心的是其开源精神;体现国产人工智能的大气风范:DeepSeek选择开源核心技术,让整个AI产业受益;DeepSeek用开源模式做AI,这不仅是技术创新,更是一种中国 Al 的大气风范。
②奥特曼团队开发的GPT-3选择闭源后,大模型开源闭源之争、之战一直存在。(直到最近,奥特曼才罕见地作出检查:他们坚持闭源是“一直站到历史错误的一边。”)
③DeepSeek R1开源发布,一举赶超闭源大模型,这是大模型开源历史上的里程碑。
④开源闭源不但关乎技术公开性,也关乎AI的安全治理。
(COPU和多数开源大师、AI大师均认为“AI安全离不开开源”;闭源在全球只会使AI引起分裂、损害安全,开源才能使AI在全球走向统一、合作)。
下面再谈谈在人工智能时代的开源:
OSI发布在AI时代 Open Source (开源) 的定义与IT时代的传统定义有所变化。AI时代对Open Source(开源)定义的要求是: 提供训练数据详细信息,完整构建和运行AI的代码,以及训练时的设置和权重。
我们在去年年中,曾与荷兰学者、OSI讨论这个问题,今天,看到大家有兴趣,我们准备进一步讨论这个问题。下面把以前我们与荷兰学者、OSI讨论的简况发布出来供大家参考:
荷兰学者发表了ACM论文,主题是戳破大公司的开源谎言,在GenAI时代如何定义“开源模型”,采用开源闭源如何判断,谁更安全?他们认为,传统的开源指能够访问、修改源代码,并对程序的使用或发行不加限制。进入AI时代后,这个概念变得模糊,关于AI模型的开源如何界定。他们注意到AI行业“开源”定义的模糊性,于是发表论文讨论这个问题,论文概括下列问题:
①开放性不同程度的复合分级概念:开放(open)、部分开放(Partially Open)、封闭(Closed)。
②可用性:包括代码、数据、模型权重、指令微调数据、微调后的权重。
③文档:源代码、模型架构的说明文档、模型卡(model card)、数据表(date sheet)、是否发布了预印本和经过同行评审的论文。
④方向与许可:是否把模型放到公开代码库上作为软件包发行,是否提供API访问,以及模型的许可证。
他们还谈了开放性有不同程度和维护,在大多数情况下,开源依旧要好过闭源。这对于:①系统的风险分析(公众需要知道),②可审查性(评估人员需要知道),③科学可复现性(科研工作者需要知道),④法律责任(用户需要知道)。
再来谈谈与OSI的讨论:时至去年年中,OSI就感到对于开源代码和使用许可的传统观点不再适用于AI组件,已经不足以保证使用、研究、共享和修改系统的自由。他们早在2022年起便研究修改开源AI的定义,至去年年中已提出0.0.8版最新修改的版本(提供三方面信息):
①训练数据的详细信息:包括数据集、数据来源、数据范围和特征、获取和数据选择方式、标注程序、数据清理方法等。以便技术人员可以用相同或相似的数据复现模型的效果。
②用于训练和运行的源代码:包括支持库以及预处理、训练、验证和测试推理、模型架构等多步骤的代码。
③模型参数:包括训练阶段中间关键的检查点(check point),以及最终的优化器状态。
这样修改的结果,比我们平常认知系统的“开放源代码”要扩展不少内容。
自DeepSeek发表以来,全球议论纷纷,其中典型的例子是日本人(青木慎一)发表的:“DeepSeek被超越,Al竞争进入新局面。”他提出生成式AI产品作比较: Grok3,Gemini-2.0,Chat GPT-4,DeepSeek R1,QWen2.5-Max。
陆主席谈;所谓DeepSeek被超越,上述的比较是在不同的起跑线上作出的,并不公正!
例如马斯克的Grok3模型,在训练时是在20万张H100算力卡上做的,是以高成本、大资源、低效率发展AI的,不同于DeepSeek以低成本、低资源;高效率发展AI的,而两者可获得几乎相同的大模型智能水平。
会上COPU专家、LVS创始人章文嵩谈到:
DeepSeek R1模型中最独到的创新是强化学习的GRPO目标函数,从多个候选项导出更合乎逻辑的结果,这是Aha时刻,在业界还在猜测OpenAI o1的思维链怎么构建和尝试,DeepSeek R1给出一个自动化的方法,而效果惊艳。
V3预训练模型是<算力、算法、数据>三者平衡的非常漂亮作品,算力是受限的,必须要在算法和数据两个维度突破。算法上,Deepseek V3预训练模型是671B 参数,采用MoE混合专家模型,里面有16个不同的领域专家,理论上假设训练数据集规模一样,训练成本和推理成本都是全连接模型的1/16,各个专家模型的参数规模小了,模型本身的表达精度就会降低,更需要高质量的数据集。
数据上,V3技术报告并没有说他们是怎么做训练集的,我猜测Deepseek把R1模型中的强化学习方法用于自有数据的提纯上获得高质量的数据,也有可能从阿里Qwen模型提纯一些数据到自己的训练集中,因为阿里Qwen模型的开源许可证是非常宽松的Apache开源许可证,基本上可以随意用。训练集的质量是模型评测效果好的关键所在。
另外,Deepseek在工程上做了很多优化,从FP16到FP8来训练,还有调优CUDA里面的PTX层避免CUDA线程自动调度的干扰。
北京智源AI研究院产业研究部研究员倪贤豪谈到DeepSeek发展中有关问题(见留言)。
IBM资深专家程海旭向COPU递交了他与OSI讨论的文件:OSI开源AI的主要要素和IBM及全球的主要AI开源项目。
参会人员:陆首群、章文嵩、安泱、袁怿、张侃、倪贤豪、程海旭、王珊、李宏博、刘夏、鞠东颖、刘澎(线上)、陈伟(线上)、孟迎霞(线上)、隆云滔(线上)、陈越(线上)、韩宪平(线上)、胡宇(线上)、Anna.AI(线上)。