本文将基于我们组最近的工作《Large language models empowered autonomous edge AI for connected intelligence》介绍GPT-4最近的发展情况以及它在边缘计算和无线感知当中的重要应用,作者来自微软亚洲研究院及香港科技大学。这篇文章是将GPT-4与边缘计算相结合的工作,希望能抛砖引玉。本文分为以下几个部分:
- Part I:GPT-4介绍
- Part II:GPT-4理论与应用的最新进展
- Part III:GPT-4邂逅边缘计算
- Part IV:GPT-4与6G
Part 0: 导言
本文稍微有一些长,先把总结放在最前面,方便大家知道文章的主要内容。
- 文章组织结构:在Part I当中,我们将介绍GPT-4的文字理解与生成能力、逻辑能力与规划能力、专业知识与学习能力以及编程能力。Part II主要介绍GPT-4的工具使用、工具制造以及模型微调当中的最新进展。Part III主要介绍我们自己的工作。Part IV将讨论一些GPT-4在边缘计算和6G中的其它应用。
- Paper贡献:(1) 我们提出了autonomous edge AI的概念,一个自组织与自提升的边缘AI系统;(2) 我们提出了使用GPT-4来协调IoT传感器和边缘AI模型,从而满足用户个性化需求,在实验当中,我们发现它能够准确解析用户意图,并且极大降低了端到端延迟; (3) 我们使用GPT-4编写联邦学习的代码来训练新的边缘AI模型,通过实验,我们发现GPT-4可以根据代码运行结果不断提高模型的准确率。
- 论文原文链接:https://arxiv.org/abs/2307.02779
Part I: GPT-4介绍
2023年上半年最火的技术当属ChatGPT和GPT-4了。ChatGPT在发布后的短短五天内就有了一百万用户,现在已经有了超过一亿的用户和每月18亿的访问量。自ChatGPT发布以来,微软和英伟达的股票分别上涨了32%和230%。那么GPT-4有什么独特的魅力呢?
- 文字理解与文字生成:作为一个语言模型,GPT-4最擅长的就是文字理解与文字生成。我们可以输入论文让它帮我们总结、翻译、写个文献综述都毫无问题,平常写个邮件、essay、或者新闻稿也不在话下。在网络通信当中,每个设备有着很长的使用说明,GPT-4可以通过理解这些说明来对网络进行配置。
- 逻辑能力与计划能力:GPT-4能获得巨大影响力的其中一个原因是它有着很多超出语言模型的能力,比如逻辑与计划。它可以解决一些十分困难的逻辑问题,比较著名的就是图1中的Lecun轮子问题。给定一个困难的任务,它可以计划将其分解为多个简单的子任务并一一完成,最终完成这个任务。在网络通信当中,它可以把用户的需求分解为不同IoT传感器可以执行的任务并且调用相应的传感器来完成复杂的任务。
- 专业知识与学习能力:GPT-4拥有极为强大的专业知识,它在各项专业考试当中都取得了人类前10%的成绩。除此以外,它还有着极为强大的上下文学习能力,对于一些非常专业的工程技术问题,它可能不能回答得很好。但是当我们给予它一些专业知识以及几个样例之后,它便能从这些知识当中学习,进而很好地解决这些专业问题。在网络通信当中,我们可以用自然语言描述专业的工程经验并反馈给GPT-4,GPT-4会快速地学会这些经验并加以应用。
- 编程能力:与ChatGPT相比,GPT-4的编程能力得到了极大的提升,根据微软的测试,对于500行以内的代码它手到擒来。我们平常可以用它写网页或者辅助写一些验证想法的代码,从而极大提高我们的工作效率。在网络通信当中,我们可以用它写一些代码与命令来配置设备,无需人类专家的干预。
除上述能力以外,GPT-4还展现了很多通用人工智能的能力,对此,微软研究院写了一篇长达155页的报告sparks of AGI来挖掘GPT-4的潜力[1],感兴趣的读者可以自行查阅。
Part II: GPT-4理论与应用的最新进展
GPT-4已经发布三个多月了,在这三个多月里,每天都有新的科研进展也有创业产品的实现。我们下面列举一些可能在网络通信当中有重要应用方向的进展:使用工具、制造工具、大模型微调。
1. 使用工具
在今年三月,微软亚洲研究院发布HuggingGPT [2],可以根据用户需求自主协调HuggingFace上的API。它首先将用户的需求分解为简单的AI 模型可以实现的子任务,然后调用HuggingFace上面AI模型的API来实现用户需求。如图2所示,GPT-4解析用户“生成蜘蛛侠冲浪的视频”的命令并调用text-to-video来生成视频。
除此之外,还有很多思路与HuggingGPT相似的文章与产品,比如微软的Microsoft 365 Copilot可以根据用户需求自动制作PPT、Excel、Word等;同为微软亚洲研究院的Visual ChatGPT可以使用ChatGPT来调用视觉API完成用户对图像处理与图像生成的要求。
2. 制造工具
除使用已有工具以外,GPT-4还可以用来设计与编写API。今年四月微软亚洲研究院推出了MLCopilot [3],它可以根据用户自己的数据集推荐合适的AI模型并自主进行训练。图3是一个医疗数据集的例子,用户需要训练一个模型来识别脑瘤,MLCopilot根据用户的需求先检索对应的AI模型设计的知识,然后根据这些知识推荐微调EfficientNet-B0。制造工具中比较著名的例子还有GPT-Engineer,其可以根据一个自然语言描述来生成整个代码库。
3. 大语言模型微调
现有大语言模型的参数量很大,微调十分消耗算力,因此,也有很多工作致力于做人人都能定制化的大语言模型。例如,华盛顿大学推出的QLORA可以在24小时内在一个GPU上打造个人专属的ChatGPT,香港科技大学的LMFlow在有8张A100卡的机器上用16小时打造了医学数据集上表现接近人类专家的大语言模型。这些工作都为在边缘服务器上分布式训练、推断大语言模型打下了基础。
除了以上三个方向以外,比较著名的进展还有具身人工智能PaLM-E、角色扮演CAMEL、自主进化的大语言模型BabyAGI和AutoGPT等,几乎每天都有新的令人激动的进展。
Part III: GPT-4与边缘计算
边缘计算也是当下最火热的技术之一,数据显示,2022年全球边缘计算市场规模为45.5亿美元,该市场规模将以12.46%的CAGR增长至2030年的1165亿美元。相比于云计算,边缘计算将算力部署在更接近用户的网络边缘侧,从而实现更快访问、保护隐私、节省能耗的目的。随着AI的迅速发展,边缘计算也衍生出了边缘AI,即在边缘服务器上训练和推理AI模型,数据无需上传云服务器,这极大减少了时延和保护了隐私。边缘计算与边缘AI将在医疗看护,智能驾驶,智能助手,工业IoT场景中起到不可或缺的作用[4] [5]。
边缘计算一般是由三层层级结构构成,最下面一层是边缘设备,比如用户的设备和IoT设备,这些设备与环境交互或进行无线感知,它们的算力和能量都是极其有限的。中间一层是边缘计算服务器,它们拥有有限但比边缘设备高很多的算力,可以低延迟地跑普通AI模型。最上面一层是云服务器,由Microsoft Azure、Google Cloud、华为云等提供,目前只有云服务器才能跑GPT-4这种需要8卡A100的大语言模型。
在我们的文章当中,我们把边缘IoT设备以及边缘AI模型抽象成为了一些工具,我们可以使用GPT-4来协调IoT设备和AI模型,也可以让GPT-4自己写代码来训练新的边缘AI模型(创建新的工具),从而极大地减少对网络维护团队的需求。
1. 协调IoT设备满足用户个性化需求
这个部分分为三个步骤:用户意图识别与设备模型选择、边缘服务器计算卸载、device-edge协同AI模型推理。
(1) 用户意图识别与设备模型选择:在这一步中,我们用GPT-4解析用户意图,将其分解为边缘设备可以完成的子任务。这里可能有点抽象,所以我们下面举两个例子来说明GPT-4是怎么做的:
示例1: 用户希望修改一张日常照片,要求将照片中的骑行男孩替换成阅读女孩。GPT-4首先将这个请求分解成两个子任务:一是检测男孩的姿势,二是使用姿势转化为图像的AI模型来生成女孩。随后,GPT-4将两个子任务与现有的AI模型进行匹配:OpenPose模型用于姿势检测,ControlNet用于图像生成。
示例2:用户请求使用室内的IoT传感器(包括WiFi、扬声器等)监测用户的情绪。GPT-4首先将请求分解为两个子任务:基于网络流量的情绪分类和基于用户生理信号的情绪检测。然后,将第一个子任务分派给WiFi,它将从网络流量中检测应用程序的使用情况,并使用预先训练好的决策树对用户的情绪进行分类;而第二个子任务将分派给扬声器,它会通过声学信号监测用户的心跳和呼吸,然后利用预先训练好的随机森林在这些信号中检测用户的情绪。在获得这两个分类预测后,GPT-4将会对它们进行整合处理从而获得最终的检测结果。
(2) AI模型的计算卸载:计算卸载需要决定哪个模型在什么设备上执行,对于每一个AI模型,需要决定每一层是在边缘服务器上执行还是在设备上执行。
(3) Device-edge联合推理:在分配好每个模型以及每一层在哪里执行之后,我们将使用neural source coding对中间推理结果进行压缩,进一步减少传输时延。
我们先看一下这个系统对于用户意图解读的实验结果。如表1所示,GPT-4后面的数字表示它的参数量,实验结果表明,只有参数很大的时候,识别用户意图与选择模型才会有比较好的性能表现。
接着,我们可以看一下端到端的时延。如图5所示,有了模型卸载和neural source coding之后,系统的时延可以极大地降低。
2. 自主编写联邦学习代码训练新模型
得益于GPT-4强大的编程能力,这一部分的实现极其简单。用户提供给GPT-4联邦学习的模板代码以及说明哪些部分需要修改。我们这里的例子有10个边缘设备,并使用FedAvg作为模板代码,用户需要在自己的图片数据集上对一个已有模型进行30个epoch的微调,基线是手工微调的ResNet18(1100万参数)。GPT-4的几次尝试如图6所示。在第一次尝试中,GPT-4建议用户使用SGD对MobiNetV2进行微调,MobiNetV2有340万个参数,同时,GPT-4生成MobiNetV2代码,并从torch vision库加载预训练的模型权重,但其将最后一层替换为随机初始化的线性函数,然后相应地修改模板代码并执行。我们可以看到,第一次尝试得到的性能没有比基线好。在第二次尝试中,用户将第一次试验的准确性报告给GPT-4,GPT-4建议用户使用不同的数据增强方法和Adam优化器。
然而,由于学习率过大,实验得到的学习曲线波动非常明显。在第三次尝试中,GPT-4建议用户使用学习率调度器,即在每10次全局更新后将学习率降低到原始值的0.1。我们可以看到,第三次尝试获得比基线更好的性能。在第四次尝试中,它没有生成任何新的配置,所以我们终止了这个过程。
Part IV: GPT-4与6G
在上一个部分当中,我们展示了两个在边缘计算中使用GPT-4的例子。下面我们趁热打铁,围绕使用工具与大模型微调介绍一些GPT-4更广泛的应用。
1. 使用工具
(1) 在之前的文献当中有着数不清的调度算法被提出来,这些算法可以被看做是工具。工程师可以将自己的经验作为背景知识输入到GPT-4,GPT-4会很快学会这些知识并且根据外界环境选择合适的算法 。
(2) 之前Sigcom’22的最佳论文是软件定义网络整合 [6],软件定义网络中的设备也可以作为工具给GPT-4使用。
2. 大模型微调
现在大模型的微调越来越轻量级,这为在边缘服务器上做大模型的联邦微调打下基础。联邦微调可以应用于病历生成等地方。
在6G当中,GPT-4还将在数据生成数据分析语义通信中扮演重要作用。
参考文献
[0] Y. Shen, J. Shao, X. Zhang, Z. Lin, H. Pan, D. Li, J. Zhang, and K. B. Letaief, “Large Language Model Empowered Autonomous Edge AI for Connected Intelligence” arxiv preprint arxiv: 2307.02779, 2023.
[1] S. Bubeck et al., “Sparks of artificial general intelligence: Early experiments with GPT-4,” arXiv preprint arXiv:2303.12712, 2023.
[2] Y. Shen, K. Song, X. Tan, D. Li, W. Lu, and Y. Zhuang, “HuggingGPT: Solving AI tasks with ChatGPT and its friends in Hugging Face,” arXiv preprint arXiv:2303.17580, 2023.
[3] L. Zhang, Y. Zhang, K. Ren, D. Li, and Y. Yang, “MLCopilot: Unleashing the power of large language models in solving machine learning tasks,” arXiv preprint arXiv:2304.14979, 2023.
[4] K. B. Letaief, Y. Shi, J. Lu, and J. Lu, “Edge artificial intelligence for 6G: Vision, enabling technologies, and applications,” IEEE J. Sel. Areas Commun., vol. 40, pp. 5–36, Jan. 2022.
[5] Y. Mao, C. You, J. Zhang, K. Huang, and K. B. Letaief, “A survey on mobile edge computing: The communication perspective,” IEEE Commun. Surv. Tutor., vol. 19, pp. 2322–2358, Aug. 2017.
[6] H. Chen, et al. “Software-defined network assimilation: bridging the last mile towards centralized network configuration management with Nassim,” SIGCOM 2022.
作者:SHAO, Jiawei & LIN, Zehong
编辑:LIN, Zehong