COPU会议纪要丨2025.04.15
4月15日,陆主席主持召开COPU例会。
一、会上首先报导Hugging Face发表“陆首群评DeepSeek”(英文版)
1.DeepSeek’s greatest success is that Liang Wenfeng’s team has developed a new path for developing AI with an innovative attitude: “low investment, low cost, limited resources, high efficiency, and high cost performance (output)”.
2.DeepSeek can be regarded as a representative work of China's current AI and is changing the development pattern of AI in the world. It lowered the bar for the public and enterprises globally to use AI. Open up a smooth road for emerging forces to develop AI. Negating the old path to develop AI with "huge investment, high cost, massive resources, low efficiency, and low cost performance (output)".
3.It is not an exaggeration to call Liang Wenfeng’s team a group of wizards or geniuses who have achieved “national destiny” innovation!
4.Liang Wenfeng's team insists on open source innovation. Open source helps the iterative innovation, stability and upgrade of AI, and the development of the ecosystem. DeepSeek integrates the full open source of the C-end of the large model and the implementation of an open source business model on the B-end. It not only implements open source innovation, but also supports the development of the open source industry. This is also a major creation of DeepSeek.
5.Some people use this to suppress DeepSeek by rating according to the current output product rankings. In fact, the output performance of DeepSeek and other large generative language models is on par with each other, and there is no exaggerated situation of one being higher than the other. If we compare them in a more scientific way based on cost-effectiveness, DeepSeek is definitely the best in the world.
6.Currently, there are not many secrets about DeepSeek’s key technology. Some large generative language models in China and abroad have basically learned DeepSeek’s key technology. When it comes to the next stage of AI competition, it can be said that everyone is on the same starting line.
7.The advent of DeepSeek has triggered a fierce competition in global AI.
8.The current DeepSeek model, like other large language models, are a generative autoregressive large language model. Limitations and negative defects exists in DeepSeek, affecting its performance. In DeepSeek’s development, it is important to overcome limitations, root out defects, greatly improve intelligence, save energy and increase efficiency, and expand applications.
9.For the generative autoregressive language model, since language cannot replace the real world, it lacks world knowledge, or cannot generate new knowledge to truly understand the physical world. In addition, language is not equal to thinking, and it also limits the depth of thinking during operation, which ultimately limits the level of intelligence produced. The autoregressive mechanism of the language model training architecture is based on Tokens and the signal processing and statistics it supports, which is the root cause of the hallucination.
10.DeepSeek, like other standard and inclusive base models, is difficult to directly transform into high-quality productivity for enterprises and industries. It still needs to improve its temporarily missing commercial value. They lack a deep understanding of enterprises and industries. While they are really applied in the business scenarios of enterprises and industries (such as finance, manufacturing, medical care, etc.), to generate value for enterprises and industries, they must capture the data of enterprises and industries and then apply them to fill the gaps.
11.It is suggested that an important task for DeepSeek’s development is to solve its problem of deviation and transition, and strive to win in the fierce global competition.
12.The goal of calibrating DeepSeek is to develop real and advanced AI - Artificial General Intelligence (AGI). When developing AGI, we must avoid being impatient for quick success. To achieve AGI, we must first develop the tasks of AI in the transition stage (such as multimodality, embodiment, agents and world models, etc.). AGI is an AI with an autonomous system. AGI is at a crossroads of whether AI intelligence can surpass humans. This is related to whether it affects human safety and even affects the extremely serious problem of whether humans can survive on the earth. When developing AGI to ensure preventive measures for human safety, it also requires countries around the world to take unified actions on the basis of mutual trust and implement the policy of combining technology and management (regulation). The task is extremely severe and arduous.
全球最大的人工智能开源社区Hugging Face于4月14日更新了大模型榜单。
阿里通义千问开源的Qwen2.5—Omni大模型登上总榜榜首,DeepSeekv3—0324和群核的Spatial LM—L1ama—2B紧随其后。
上面三家杭州企业霸榜了前三。
千问Qwen2.5—Omni—不但可同时处理文本、图像、音频和视频等多种输入,并实时生成文本与自然语言合成输出,并在多模态融合任务Omni Bench 测评中,其性能表现刷新了业界成果。
对西方国家而言,阿里等企业这次霸榜全球开源模型榜单,让他们看清现实:中国已经彻底崛起了,展现了中国的技术实力。
二、陆主席谈如何点评李飞飞2月6日的“中国行”。
1月20日梁文锋团队发布了DeepSeek-R1大模型,只用560万美元的训练成本(只有GPT4o大模型的1/7),开源并高效率,产出与GPT4o性能对等(达到GPT4o性能的97%)的效果,从而又一次创新走出一条研发AI的新路径。DeepSeek的成功,不但震憾硅谷震憾世界,其成功也受到一些国际AI专家所谓抄袭的怀疑,甚至遭到来自国际政商界一些人士污蔑造假的打压。
2月6日李飞飞团队的“中国行”发布了S1大模型。她们只用50美元及更短时间就训练出与DeepSeek-R1性能对等的S1大模型。当时国内一些人惊呼李飞飞这是在打压梁文锋,给梁抹黑!加上李飞飞美籍华人的身份,网上充斥一片指责她为“汉奸”、“叛徒”的谩骂声。
我并不认识李飞飞,但对李飞飞的AI经历也进行了一些了解,李是美国华裔院士(兼任美国三院院士:美国艺术与科学院院士、美国国家工程院院士、美国国家医学院院士),斯坦福大学“以人为本智能研究院”联席院长,人称“人工智能之母”。
我为此考察了她当时的“中国行”,李飞飞曾公开声明她的S1大模型的训练不是从O开始的,她的训练数据取自谷歌,她1000个有推理能力的样本是从谷歌模型中提炼出来的,然后在中国阿里云Qwen2.5-Max大模型基础上进行微调而成。这时S1的性能与GPT-4o和DeepSeek-R1对等。
当时,我看到网上充斥对李飞飞一边倒的指责,冒着一点风险我发出了一篇不同调的短评,指出:李飞飞这次“中国行”的做法不存在打压梁文锋的问题,实际上她只是想验证DeepSeek获得成功的科学性,她还想验证开源模型超越专用模型(闭源)、开源又是AI创新的重要力量(这是她后来补充说的)。前天,我看到网上发表的一篇短评,这正是我写的!欣慰的是过去黑压压的一片消失不见了!
三、本次会议发表斯坦福大学由李飞飞领导的以人为本AI研究所于4月8日发布的《2025年AI指数报告》12大关键趋势:
1.AI 在苛刻基准上的表现持续提升
2023 年,研究人员引入了新的基准——MMMU、GPQA 和 SWE-bench,以测试高级 AI 系统的极限。仅仅一年后,性能大幅提升:在 MMMU、GPQA 和 SWE-bench 上的得分分别提高了 18.8、48.9 和 67.3 个百分点。在基准测试之外,AI 系统在生成高质量视频方面也取得了重大进展,在某些场景下,语言模型智能体(language model agents)甚至在有限时间预算的编程任务中超越了人类。
2.AI 正越来越多地融入到日常生活中
从医疗保健到交通运输,AI 正迅速从实验室走向日常生活。2023 年,FDA 批准了 223 种 AI 医疗设备,而 2015 年仅为 6 种。在道路上,自动驾驶汽车不再是实验性的:美国最大的运营商之一 Waymo 每周提供超过 15 万次自动驾驶出行,而百度的经济型“萝卜快跑” (Apollo Go)自动驾驶出租车车队现在已在中国多个城市提供服务。
3.企业全力投入 AI,推动投资和使用创历史新高
2024 年,美国私营部门对 AI 的投资增长到 1091 亿美元——几乎是中国(9.3 亿美元)的 12 倍,是英国(4.5 亿美元)24 倍。生成式 AI 尤其强劲,全球吸引私营投资 339 亿美元—比 2023 年增长 18.7%。AI 的商业应用也在加速:2024 年,78% 的组织报告称在使用 AI,比前一年增长 55%。同时,越来越多的研究证实,AI 提高了生产力,在大多数情况下,有助于缩小劳动力中的技能差距。
4.在创造顶级 AI 模型方面,中国正在缩小与美国的差距
2024 年,美国机构推出了 40 个引人注目的 AI 模型,显著超过中国的 15 个和欧洲的 3 个。虽然美国在数量上保持领先,但中国模型在质量上迅速缩小了差距:在 MMLU 和 HumanEval 等主要基准上的性能差异从 2023 年的两位数缩小到 2024 年的接近相等。同时,中国在 AI 出版物和专利方面继续领先。与此同时,模型开发越来越全球化,中东、拉丁美洲和东南亚等地区也推出了引人注目的新模型。中美顶级AI模型差距也缩至0.3%。
5.负责任的 AI 生态系统不断发展,但不均衡
人工智能相关事件急剧上升,但在主要工业模型开发者中,标准化的 RAI 评估仍然很少。然而,新的基准如 HELM Safety、AIR-Bench 和 FACTS 为评估事实性和安全性提供了有希望的工具。在公司中,识别 RAI 风险和采取有意义的行动之间存在差距。相比之下,政府表现出更大的紧迫性:2024 年,全球在人工智能治理方面的合作加强,包括经合组织、欧盟、联合国和非盟在内的组织发布了关注透明度、可信度和其他核心负责任人工智能原则的框架。
6. 全球 AI 乐观情绪上升,但地区间深层次分歧依然存在
在中国(83%)、印度尼西亚(80%)和泰国(77%)等国家的大多数人认为,人工智能产品和服务是利大于弊的。相比之下,加拿大(40%)、美国(39%)和荷兰(36%)等地的乐观情绪仍然远低于其他国家。然而,情绪正在转变:自 2022 年以来,包括德国(+10%)、法国(+10%)、加拿大(+8%)、英国(+8%)和美国(+4%)在内的几个先前持怀疑态度的国家,乐观情绪显著增长。
7.AI 变得更加高效、经济实惠和易于获取
由越来越强大的小型模型驱动,在达到 GPT-3.5 水平上的系统推理成本在 2022 年 11 月到 2024 年 10 月间下降了 280 倍。在硬件层面,成本每年下降 30%,而能效每年提高 40%。开放权重模型也在缩小与封闭模型的差距,在某些基准测试中,一年内性能差异从 8%减少到仅 1.7%。这些趋势共同迅速降低了高级人工智能的门槛。
8.各国政府正在加强对 AI 的监管和投资
2024 年,美国联邦机构出台了 59 项与 AI 相关的法规,是 2023 年的两倍多,发布法规的机构数量也是 2023 年的两倍。在全球范围内,自 2023 年以来,75 个国家的 AI 立法提及率上升了 21.3%,自 2016 年以来增长了 9 倍。在日益受到关注的同时,各国政府也在进行大规模投资:加拿大承诺投资 24 亿美元,中国启动了 475 亿美元的半导体基金,法国承诺投资 1090 亿欧元,印度承诺投资 12.5 亿美元,沙特阿拉伯则发起了一项 1000 亿美元的倡议。
9.AI 和计算机科学教育正在扩大,但普及程度仍不够
如今,已有 2/3 的国家提供或计划提供 K-12 计算机科学教育,是 2019 年的两倍,其中非洲和拉丁美洲取得的进展最大。在美国,拥有计算机学士学位的毕业生人数在过去 10 年中增加了 22%。然而,在许多非洲国家,由于电力等基础设施的不足,获得计算机学位的机会仍然有限。在美国,81% 的 K-12 计算机科学教师表示,AI 应该成为计算机科学基础教育的一部分,但只有不到一半的教师认为自己有能力教授 AI。
10.工业界依然一路领先
2024 年,近 90% 的著名人工智能模型来自工业界,高于 2023 年的 60%,而学术界仍然是高引用率研究的首要来源。模型规模持续快速增长——训练计算每 5 个月翻一番,数据集每 8 个月翻一番,耗电量每年翻一番。然而,性能差距正在缩小:排名第一和第十的模型之间的得分差距在一年内从 11.9% 降至 5.4%,排名前两位的差距现在仅为 0.7%。前沿领域的竞争越来越激烈。
11.AI 因其对科学的影响而斩获最高荣誉
AI 的重要性与日俱增,这一点从重大科学奖项中就可见一斑:两项诺贝尔奖表彰了 AI 在深度学习(物理学)和蛋白质折叠(化学)中的应用,而图灵奖则表彰了 AI 在强化学习方面的开创性贡献。
12.复杂推理仍是一项挑战
人工智能模型在国际数学奥林匹克竞赛问题等任务中表现出色,但在 PlanBench 等复杂推理基准测试中仍然面临挑战。即使存在可证明正确的解决方案,它们也常常无法可靠地解决逻辑任务,这限制了它们在精度至关重要的高风险环境中的有效性。
四、本次会议接着讨论定于6月13-14日召开的2025年《第20届开源中国开源世界高峰论坛》和(圆桌会议)的筹备工作。
会议主题:
发展人工智能时代的开源,
开源创新,数字化转型与智能化重构,
推动大模型在企业中的应用,
推动语言大模型纠偏转轨发展。
会议方针:本届开源国际会议立足于提高会议质量,扩大会议影响力抓好名人效应,落实会议重点项目。
名人效应:姚期智,沈向洋,李开复,杨立昆,李飞飞,LF,OSI,Hugging Face,浙大,Kimi等。
会议重点:华为,阿里,腾讯,小米,中兴,联通,RISC-V等。
要求:千方设法,全力以赴,团结协作,紧盯不放,借力打力,充分协商,务求实效!
参会人员:陆首群、安泱、刘夏、倪贤豪、谭中意、程海旭、王奂然、张侃、杨丽蕴、陈连虎、鞠东颖、刘澎(线上)、陈绪(线上)、陈伟(线上)、刘明(线上)、武力(线上)、王劲男(线上)、胡宇(线上)、Anna.AI(线上)、隆云滔(线上)。