COPU会议纪要丨2024.09.18

2024-09-18 16:00:44 66

图片关键词

9月18日（周三）陆主席主持召开COPU例会。

本次会议讨论人工智能操作系统的五个案例：（一）华为在鸿蒙操作系统中配置AI模块，（二）苹果在iOS-18操作系统中配置AI模块，(三)谷歌在 Android-15操作系统中配置AI模块；这三家均是以应用入手，OS for AI的准AIOS(或叫 AI-Powered OS/即通过现有OS中集成AI服务)。本次会议还将讨论（四）LLM Agent OS （五）LLM OS案例，其中（四）是将大模型嵌入操作系统中，作为OS的大脑，实现“有灵魂”的OS，LLM Agent OS的主要职能是依靠LLM进行资源调度和优化分配，依靠OS完成操作系统的各项职能，LLM Agent OS是从框架或内核入手, AI for OS的AIOS(或叫AI-Refactored OS/即重构操作系统架构)。

（一）华为在鸿蒙操作系统中配置自主开发的AI模块（华为出面报告）:
1)智能语音助手及系统级交互能力
-搭载盘古大模型：小艺语音助手搭载盘古大模型，拥有系统级AI能力，能够更准确地理解用户的意图，快速处理各种指令和问题。
-集成多种功能：
-AI信息顾问：可以为用户提供各种信息咨询服务，例如查询天气、股票信息、旅游攻略等。
-AI翻译专家：支持多种语言的翻译，在双屏分屏模式下，可以一边看原文一边看翻译，对照翻译内容，方便用户进行跨语言阅读和交流。
-AI资深编辑：能自然语言对话，比如用户写一个发言稿，它可以进行润色，用户要求用英文发言稿，它也可以进行翻译，帮助用户处理文本内容，提高工作效率。
2) 影像处理能力
-AI消除：可以智能识别图像中的瑕疵或不需要的元素，并进行消除处理，使图片更加完美。
-AI扩图：能够智能填补图像的扩展区域，让图片呈现更大的画面和更广阔的视野，为用户提供更多的创作可能性。
-AI云增强：通过云端的智能算法，对图像的质量进行优化和增强，提升图像的清晰度、色彩饱和度等，使照片更加出色。
3) 内容处理及呈现能力
-A1摘要：用户在阅读文章时，分屏模式下可以两边直接对文章内容进行摘要提取，快速提炼出关键信息和观点，帮助用户节省阅读时间，提高信息获取效率。

(二)苹果在 iOS操作系统中配置AI模块(陈钟教授介绍)：

苹果智能（Apple Intelligence）是苹果公司在其操作系统中集成的个人智能系统。目前苹果智能被集成到了iOS18、iPad18和macOS Sequoia中，其目标是让用户在苹果多个设备上享受到一致的智能体验，提高用户体验的连贯性和便捷性。发布会给出了具体功能的介绍，核心功能包括：文本撰写和润色、用户通知优先级按重要性排序和自动摘要、创建对话图像、简化应用内交互等，其中语音对话的Siri,通过大预言模型的对接变得更智慧了，得到用户的好评。

苹果智能包括了一系列语言模型，其定位于用户的个人智能，也就是能够根据用户当前的活动进行即时适应，这包含了它们能够学习用户的行为模式，并根据这些模式来优化其提供的服务。苹果基础语言模型有两部分：一个专门用于设备端的模型，称为：AFM-on-device；另一个是为服务器环境设计的模型，称为：AFM-server。

AFM-on-device是一个大约30亿参数的语言模型，它被优化用于在苹果设备上运行，以实现高性能和低延迟。AFM-server是一个更大规模的服务器基础语言模型，专为苹果的私有云计算环境设计。这个模型利用了服务器的计算资源，以支持更复杂的任务和更高的并发用户需求。这些模型都经过了精心设计和优化，以确保它们能够高效地执行各种任务，包括文本生成、对话管理、图像创建和应用内操作等。优化的方面包括模型架构、数据处理、训练过程和推理引擎。

苹果公司已经实现了这些模型，集成到iPhone，iPad和Mac中，并且是快速和高效的。通过任务特定和精确调优，小规模参数模型能够胜任用户的性能需求。

图片关键词

图1：苹果智能体系架构，采用适配器框架支撑on-device和server语言及图像模型

从图1中可以看到，苹果公司在芯片级（Apple silicon）设计了多核的CPU、多核的GPU，以及神经网络引擎NE和安全可信硬件支撑（Secure Enclave），以9月10日发布的iPhone16新款手机为例，其参数达到了如下的配置：2+4=6核CPU、5/6核GPU、16核的NE，3nm工艺（详见表1）。其中，NE支持了模型的适配器架构（Adapter architecture），即通过小型神经网络模块插入到基础模型中的不同层级可以支持LoRA adapters适配器，支持模型针对特定任务进行优化微调。LoRA（Low-Rank Adaptation）适配器是一种参数高效的微调方法，通过在模型的自注意力层和前馈网络中插入小型的神经网络模块来调整模型。适配器的设计允许它们在运行时被替换，这意味着模型可以根据用户的需求或上下文的变化来加载最合适的适配器。文章还论述了配置16个适配器的缘由，以及当基础模型或者训练数据更新以及新的能力需要增加时如何快速增加、重训、测试和部署适配器，有效保证了操作系统的响应能力。从图1的右部还可以看到，私有云部署AFM Server模型的部分。

图片关键词

在开发这些模型的过程中，苹果公司强调了负责任的AI原则的应用。这些原则包括赋予用户权力、代表全球用户群体、谨慎设计和保护隐私。这些原则确保了AI工具的开发不仅技术先进，而且在道德和社会责任方面也是可靠的。苹果智能的模型开发重点在于创建能够解决特定用户需求的工具。这些工具旨在提高用户的日常生活效率，同时确保用户隐私和数据安全。

(三) 谷歌推出 Android-15操作系统在其中配置的AI模块(安泱老师介绍）
作为智能模块的AICore属于 Android的智能服务，在后台运行为前台AI应用服务(AICore是ASOP的组成部分)， Android-15 是以应用入手,OS for AI的准AIOS。
通过AI Core可使OS中的端例模型 Gemini Nano(将大模型小型化,以便在手机上显示，它是AICore的组成部分)实现模型管理、运行调度、安全检查，以及多模态工作的能力。
AI Core还可增强场景支持的AI能力(如高质量文本摘要、问题回答、问题扩展、上下文智能回复、高级校对、语法纠正等场景支持)。
AICore在手机网络断网时，还可保留不止丢失内容的摘要，利用Gemini Nano支持(美国的)聊天网站( Gboard、 whatsapp)通过AI Core给出高质量的智能回复,并可节省用户时间。

讨论两则LLMOS案例：
(四) LLM Agent OS
语言大模型智能代理操作系统(LLM Agent OS)是人工智能操作系统(AIOS)的一种类型，其主要特点是将大模型嵌入操作系统中，作为操作系统的“大脑”，以实现一个“有灵魂”的操作系统。该LLM AgentOS的主要职能，依靠LLM进行：①对运行在LLM上的资源调度和优化分配，②对各集成代理之间上下文切换，③实现代理的并发执行，④为代理提供工具服务，⑤维护各集成代理之间的访问控制；以及依靠OS架构的各项职能：⑥内存管理，⑦工具管理，⑧访问管理，⑨通信管理等。可参阅：https://github.com/agiresearch/AIOS
(五) LLM OS(简易、定制、互补)某种语言大模型操作系统(LLM OS)是一款简易、定制、互补的人工智能操作系统(AIOS)，主要依靠语言大模型(LLM)+周边的基础软件模块(计算器、编译器、浏览器、文档库)+相邻大模型(LLMs)的综合功能，支持有限或定制的(9项)应用：①阅读通用文本，②掌握更多的学科知识，③浏览互联网，④使用现有基础的计算工具(计算器、 Python、鼠标、键盘)，⑤看见和生成影像和视频，⑥采用2号系统进行长期思索，⑦对报酬自行完善，⑧对译文定制和协调，⑨与其他大模型共享资源。参会人员：陆首群、陈钟、陈伟、章文嵩、宋可为、谭中意、王珊、安泱、张侃、蒋科、顾雨婷、鞠东颖、韩宪平（线上）。

开源通讯

COPU会议纪要丨2024.09.18

关于联盟

开源通讯

开源活动

开源研报