COPU会议纪要丨2025.03.18
COPU会议纪要丨2025.03.18
3月18日,陆主席主持召开COPU例会。
一、本次会议讨论交流了人工智能在发展中的误区。
首先提出了所谓语言大模型(LLM)可以直通通用人工智能(AGI)是观念上的一大误区,易被一些人利用来进行炒作。
会议认为,当前LLM是在全球发展风头正盛唯一的AI。从观念上讲,LLM能否直通AGI(开“直通车”)是全球AI争议的焦点。奥特曼、马斯克等AI大师力主实现“直通车”,而杨立昆、哈赛贝斯(Demis Hassabis,DeepMind创始人)等AI大师是“直通车”的否定者。最近MIT的学者通过试验证明:语言不等于思维,LLM在处理语言方面表现很优秀,但不能产生新的知识,而缺乏知识支持的LLM难以向AGI开出“直通车”。杨立昆更指出,LLM缺乏系统推理规划,缺乏对物理世界底层结构的理解,即缺乏关于世界知识、人类行为和相互关系问题的知识,而缺乏知识广度(世界知识和本地知识)和知识深度(知识的存储和积累)支持的LLM很难开出“直通车”。这就是主张“LLM可直通AGI”将成为AI发展中的误区。
为了改变这种状态,在从LLM向AGI发展中需要补课,使LLM向AGI演进过程中需要增加一系列过渡的演进阶段(如下),并按序推进:语言大模型 → 多模态大模型 → 具身大模型 → 世界模型 → 通用人工智能。增加AI演进的过渡阶段主要解决提升推理能力,增加对世界底层结构物理空间的理解,产生新的知识,并提高洞察力。
AGI是具有高度自主系统的AI,正处于AI的智力是否能超越人类的十字路口,将涉及到AI是否会危及人类安全甚至人类生存的关键时刻,所以在开“直通车”时需要提前研究、落实如何保障人类安全的预防措施。
二、会议认为,其他语言大模型与DeepSeek大模型上排行榜对比将陷入一个错位误区
今年2月底、3月初,中国深度求索公司先后发布DeepSeek-V3、-R1大模型,震撼硅谷,震撼世界!
DeepSeek-R1推理大模型获得最大的成功是梁文锋团队以创新的姿态走出一条低投资、低成本、有限资源,高效率,高性价比(产出)发展AI的新路径。而对比美西方发展AI的旧路径是:巨额投资、高成本、海量资源,低效率,低性价比(产出)。如此说来,在发展AI路径对比中,DeepSeek胜出!
颁布排行榜的基点是以各个大模型的产出的性能作对比,其实从产出性能而言,各个大模型处于时高时低、基本等同的状态(陆主席谈到他在修改一家大模型的报表时,他们原提该大模型的产出性能已超过DeepSeek-R1,改为与DeepSeek-R1同等性能),或者按辛顿大师的说法以性价比来作对比。
下面举例介绍美国最近发布的一个生成式AI的排行榜:其中排行第1的是Grok3,排行第2、3、4的分别是Gemini2.0 FlashThinking、Gemini2.0 pro、ChatGPT-4o,而DeepSeek-R1被挤到排行第5.
其实,DeepSeek的运算速度与Grok3相差不多,在标准测试中跑分仅比Grok3少10分,处于同等水平,但训练成本就相差太大了:DeepSeek-R1的训练成本降至Grok3的1/10万 ~ 1/100万,无疑DeepSeek-R1的性价比要比Grok3大得太多。
所以按排行榜的方式来作对比,会陷入一个错位误区。
三、在AI时代修改开源定义有待商榷
在IT时代,传统的开源是开放源代码。到AI时代,要求增加开源的透明度,OSI为此修改开源的定义,要求提供训练数据的详细信息,完整构建和运行AI的代码,以及训练时的设置和权重,以扩大实行开源。陆主席在2025.3.11 COPU例会上曾谈到:当前的开源不是开放源代码,按ISO的说法,还要开放参数、权重,以至开放数据集,这是反映在AI时代对扩大开源定义提出的要求。在当时会上陆主席还指出:“DeepSeek走的是开源之路,梁文锋强调“开源是技术进步的命根子”,但当我检查Deepseekv3时,他们至今并未全面开源。还要指出,我们在报导2024.2.19辛顿大师的讲话中,他提出要谨慎处理开源大模型问题,他的意思是要提高开源的透明度。2024.4.23,国际开源界应我之请响应辛顿建议,以LFAI名义建立了“模型开放性框架(MoF)”规范。MoF的要点是:提高开源模型的透明度,修改规定模糊的开源许可证,删除“开放洗涤”的不良侵扰,增加数据集、训练代码和基准测试数据的开源要求。但在我们报道辛顿在2025.3.11的讲话中,他又说不能将模型的权重实行开源,因为这样做后可能被坏人利用,坏人只需用极少量资源就能对模型进行微调,随后可干各种坏事!如此看来,辛顿前后讲话似乎有矛盾,而Deepseek不实行开源(不对权重开源)似乎也有道理。因此对于在AI时代修改开源定义尚有待商榷才能定稿。”
四、下面发表DeepSeek谈幻觉(回答陆主席提问)
正值COPU组织大家学习、讨论和应用DeepSeek之时,陆首群教授提出一个问题请大家讨论。他提出的问题是:如何识别DeepSeekR1产生的幻觉问题?
他说:DeepSeekR1是属于生成式AI语言大模型的一个类型,而生成式AI语言大模型是采用概率生成机制的,即模型通过统计方法生成文本,这种机制必然会产生幻觉或虚假信息。现在的问题是:产生幻觉对DeepSeek的应用有何影响?有什么办法来识别或根除DeepSeek产生的幻觉?DeepSeek能自我识别吗?
COPU的开源同仁进行了热烈讨论,大家对包括DeepSeek在内的生成式语言大模型会产生幻觉取得了共识,并对只有提高统计中的参数量才有利于提高推理能力,才有可能减少幻觉率,但不可能根治幻觉,也取得了共识。但在能否识别幻觉,特别在DeepSeek操作中一旦产生幻觉时能立马识别,产生了很大分歧。陆教授对以IBM程海旭博士为首的专家们建议他们能向DeepSeek咨询,请它回答下列问题:
DeepSeekR1产生幻觉对其应用有何影响?有什么办法来识别幻觉?特别是DeepSeek能自我识别吗?
下面是IBM 程海旭博士从向DeepSeek咨询中获得的回答:
Deepseek回答:关于大型语言模型(如 DeepSeek)产生“幻觉”(生成虚假信息)的问题,以下是具体影响、应对方法及模型自我识别能力的分析:
(一)幻觉对DeepSeek应用的影响
DeepSeek认为,DeepSeek产生幻觉将削弱在严肃场景中的实用性。幻觉对Deepseek的应用的影响有:
1. 可靠性风险
- 关键领域隐患 :在医疗、法律、金融等领域,错误信息可能导致严重后果(如错误诊断建议、法律条款误导)。
- 信任危机 :用户若频繁遭遇虚假信息,会降低对模型的信任,影响产品长期使用率。
2. 信息污染
- 模型生成的虚假内容可能被二次传播(如社交媒体、学术写作),加剧网络信息污染,甚至形成“错误信息链”。
3. 商业应用限制
- 企业若依赖模型生成客服回答、产品描述等内容,需额外投入人工审核成本,降低效率。
4. 伦理与合规问题
- 生成涉及歧视、偏见或捏造事实的内容,可能引发法律纠纷或舆论风险。
(二)识别或根除幻觉的方法
DeepSeek认为,DeepSeek目前能采取措施,减少幻觉生成率,但尚无法完全识别和根治幻觉
1. 技术改进方向
- 检索增强生成(RAG)
结合实时检索外部可信数据库(如权威期刊、官方报告),在生成答案前验证信息,减少依赖模型内部记忆。
- 事实一致性检测
通过独立模块对生成内容进行逻辑校验(如检查时间线矛盾、数据冲突),或对比多源信息验证一致性。
- 强化学习优化(RLHF)
通过人类反馈标注幻觉样本,训练模型优先生成更保守、可验证的答案。
2. 用户端应对策略
- 追问来源与依据
要求模型提供引用来源(如论文链接、统计数据),并手动验证链接或数据真实性。
- 限制生成范围
明确问题边界(如“仅基于2023年公开数据回答”),减少模型因知识盲区而虚构内容。
- 交叉验证
对关键信息通过多轮提问或不同模型(如 GPT-4、Claude)对比结果,识别矛盾点。
3. 系统设计优化
- 风险分级机制
对高风险领域(如医疗、法律)设置内容警告,或直接禁止生成未经验证的结论。
- 动态置信度提示
在答案后附加模型对自身回答的置信度评分(如“此信息置信度为70%,建议进一步核查”)。
(三)DeepSeek能否自我识别幻觉?
1. 当前局限性
- 无事实感知能力 :模型本质是“语言概率生成器”,无法理解语义真伪,仅能通过统计模式判断“是否符合常见表达”。
- 自我评估不可靠 :即使模型被要求检查自身回答,其二次验证仍基于相同训练数据,可能重复错误。
2. 有限进步方向
- 元认知提示(Meta-prompting) :通过特定指令(如“请严格检查以下内容是否有矛盾”),可部分激活模型的逻辑推理能力,但对复杂幻觉识别率有限。
- 置信度反馈机制 :模型可标记低置信度内容(如标注“此信息可能不准确”),但需依赖训练数据中的模式识别,仍存在误判。
3. 未来可能性
结合外部工具链(如实时搜索引擎、知识图谱)的混合系统,可实现“生成-验证-修正”闭环,但需复杂工程实现,且仍非模型自主能力。
(四)总结与建议
- 影响层面 :幻觉可能削弱模型在严肃场景的实用性,需通过技术改进与人工干预结合降低风险。
- 识别方法 :外部验证(如人工审核、多模型交叉检查)比依赖模型自我检测更可靠。
- 用户建议 :对关键信息保持审慎态度,优先选择支持外部检索功能的模型版本(如 DeepSeek-RAG)。
未来技术进步(如动态知识更新、事实验证模块集成)可能逐步缓解该问题,但完全根除幻觉仍是长期挑战。
从DeepSeek在向其咨询的答复中谈到,DeepSeek在产生幻觉后尚未能形成成熟的自我识别能力以应对,如它在谈到三个方面时,第一方面(1,当前局限性)其中谈了4条:①无事实感知能力,②无法理解语义真伪,③仅能通过统计式判断是否符合常见表达?④自我评估不可靠,第二方面(2,有限进步方面)其中谈了3条:①对复杂的幻觉识别率有限,②模型置信度的信息可能不准,③依赖训练数据的模式识别存在误判,第三方面(3,未来可能性)其中谈到混合系统实现“生成—验证—修正”的闭环时仍非模型自主能力。
如此看来,DeepSeek否定自我已经形成识别幻觉的能力,要比别人对它说道更具说服力和可信度。
参会人员:陆首群、章文嵩、宁固、谭中意、张铎、武力、陈连虎、张侃、安泱、袁怿、倪贤豪、刘夏、鞠东颖、刘澎(线上)、陈钟(线上)、王劲男(线上)、李弘博(线上)、隆云滔(线上)、胡宇(线上)、韩宪平(线上)、Anna.AI(线上)、陈绪(线上)。