移动边缘云计算网络中基于推荐的边缘缓存的联邦深度强化学习

标题：Federated Deep Reinforcement Learning for Recommendation-Enabled Edge Caching in Mobile Edge-Cloud Computing Networks

期刊：IEEE Journal on Selected Areas in Communications 2023

作者：Chuan Sun、Xiuhua Li、Junhao Wen、Xiaofei Wang、Zhu Han、C. M. Leung

分享人：袁浩鹏

1 研究背景

目前，大量终端设备接入互联网以在无线网络中实现各种服务和应用（如内容访问、虚拟导航/管理和环境监测），这不可避免地导致严重的骨干网络拥塞，并降低用户的服务质量。

为了应对这些挑战，通过赋予网络边缘（例如基站（BS））计算/缓存功能，多层计算已成为一种很有前途的系统级计算架构。部署有边缘服务器的BS可以在用户附近缓存一些内容，以减少检索延迟并缓解网络拥塞，称为边缘缓存。

与云服务器相比，边缘服务器由于其有限的缓存容量，只能缓存一小部分内容目录。此外，用户的内容请求和网络条件是动态变化的，这导致了大量的请求未命中，即请求的内容没有缓存在边缘服务器上。因此，边缘缓存高度依赖于缓存替换的方案设计，以提高缓存命中率并降低服务延迟。目前多层计算网络中的边缘缓存仍然面临着两个严峻的挑战：一是高成本的直接命中方式，二是用户的异构内容请求。可将挑战总结为以下两个层面：

请求层面：请求异构性降低了缓存替换策略。
服务层面：直接点击无法满足大量用户的请求，并承担大量成本。

2关键技术

在本文中，作者研究了移动边缘云计算网络中启用推荐的边缘缓存问题，该问题联合考虑了资源级别和决策级别的挑战。所提出的系统集成了推荐系统，以支持直接点击和软点击。

直接命中是指用户请求的内容恰好在缓存中存在，可以直接从缓存中获取数据。这种方式具有较低的传输成本和延迟，并且不需要从云端服务器获取数据。而软命中则是指用户请求的内容在缓存中不存在，但是可以通过推荐相似度较高的其他内容来获取类似的数据。

边缘服务器资源利用率的提高可以有效弥补缓存容量的限制。为了减轻软点击对用户体验质量(QoE)的影响，作者将用户QoE建模为综合系统成本。为了解决公式化问题，作者提出了一种具有联邦深度强化学习（DRL）和联合学习（FL）的去中心化缓存算法，其中多个代理独立学习和做出决策。具体而言，作者的主要贡献总结如下。

为了提高缓存收益，作者集成了边缘缓存和推荐系统，在移动边缘云计算网络中形成了一个支持推荐的边缘缓存系统。所提出的系统同时支持直接命中和软命中。作者将影响用户QoE的因素建模为综合系统成本（包括相似性成本、延迟成本和缓存命中成本）。作者进一步将缓存替换问题公式化为多智能体马尔可夫决策过程（MDP），以最小化预期的长期系统成本（反映用户QoE）。
作者将公式化问题分解为两个更简单的子问题，并提出了一个支持去中心化推荐的边缘缓存框架。特别是，为了处理异构性，作者提出了一种联邦离散软行动者-批评者（FDSAC）算法，该算法只对批评者网络进行联邦，以缓解请求的异构性。此外，作者通过集成长短期记忆（LSTM）来捕获替换动作的时间序列相关性，从而改进了行动者网络。
作者对合成数据集和MovieLens数据集进行了广泛的模拟。跟踪驱动的仿真结果表明，该框架在收敛性上优于现有的几种基于规则和DRL的算法。此外，它可以显著降低提高用户QoE的平均系统成本，特别是平均延迟成本和平均缓存命中成本。

3、算法介绍

3.1 内容推荐模型

作者提出了一个内容推荐模型来实现软点击，其基本思想是，不同的用户表现出不同的行为习惯和内容表现，每个用户对内容都有个性化的相似性。对于一些相似且用户感兴趣的内容，将相似的内容推荐给用户来选择以满足他们的请求。

当请求的内容没有缓存在边缘服务器上时，如何确定直接命中或软命中仍然是一个挑战。软点击可以通过推荐具有高相似性分数的缓存内容来显著降低传输延迟。但是，当缓存的内容具有低相似性得分时，仍然选择直接命中。这是因为作者专注于提高用户QoE，而不仅仅是减少传输延迟。因此，作者将影响用户QoE的因素建模为综合系统成本。

3.2 缓存替换模型

边缘服务器应该替换缓存的内容，以满足用户更多的内容请求。作者将边缘服务器的缓存替换建模为MDP，它由state,action和reward组成。

State：由于每个边缘服务器通过观察其自身和服务蜂窝区域中的用户来进行替换操作，作者认为该State 由每个时隙中的本地缓存状态和请求状态组成。

Action：边缘服务器应确定替换哪些内容以及如何满足内容请求，即缓存替换操作和请求处理操作,记作。

Reward：根据系统成本模型，作者将奖励定义为相似性成本、延迟成本和缓存命中成本的加权和，记作。

3.3 问题分解

作者在一个时隙内分析某个基站的推荐边缘缓存系统，如图所示。在一个时隙的开始，由BS服务的几个用户发起内容请求。作者需要首先确定向用户交付内容的请求处理操作。同时，如果请求的内容没有缓存在边缘服务器上，作者应该确定是否向用户推荐类似的内容，即软点击。然后，作者优化无线资源的分配，以减少基站和用户之间的传输延迟。最后，边缘服务器应该替换缓存的内容，以满足更多的内容请求，即缓存替换操作。为此，作者需要确定本地用户请求和缓存替换。

因此，启用推荐的边缘缓存处理被分为本地请求处理和缓存替换处理，其中本地请求处理包括内容推荐和资源分配。这个复杂的优化问题可以分解为两个子问题：本地请求处理和缓存替换处理。

3.3.1 本地请求处理算法

由于每个边缘服务器服务的用户数量是有限的，作者使用贪婪算法来找到最佳的请求处理动作，如下图算法伪代码所示。每个边缘服务器应该确定用户的所有请求。如果已经缓存在边缘服务器上，应该选择直接命中。当边缘服务器处的缓存内容不包括内容时，考虑向用户推荐类似的内容，即软命中。需要得到用户的相似性矩阵，然后得到关于内容的前个相似内容。如果其中一个相似内容出现在缓存的内容中，选择软命中，否则，选择来自云服务器的直接命中。

3.3.2 缓存替换处理算法

作者提出了一种FDSAC算法来处理缓存替换问题。具体来说，作者首先提出了SAC的多智能体离散变体，它由行动者网络和评论家网络组成。然后，作者通过集成LSTM来捕获时间序列，从而改进actor网络替换动作的依赖性。最后，作者通过将FL与注意力机制相结合来保护用户隐私，从而改进了评论家网络。FDSAC实现框架图如下所示。

在所提出的框架中，有B个DSAC模型部署在B个边缘服务器上，还有一个DSAC的批评者网络部署在云服务器上，如图4所示。与现有的FL将所有局部模型聚合到全局模型不同，作者将DSAC的行动者网络和评论家网络分离，只将所有局部评论家网络的参数聚合到中央评论家网络。这是因为，理论上，所有评论家网络对当前网络环境的评估标准都应该相同，但由于用户的请求异质性，行动者网络应该不同。作者进一步利用注意力机制来增强更好的代理。

4、实验结果

下图显示了默认设置下合成数据集和MovieLens数据集的FDSAC、DQN、FDDQN和PPO的收敛曲线。显然，随着事件的增加，与DQN和PPO相比，所提出的FDSAC算法（红线）对两个数据集的平均系统成本都收敛得更低。这是因为具有最大熵目标的FDSAC具有探索更多动作空间的能力。此外，LSTM可以加速行动者网络的训练。特别是，对于合成数据集，作者可以看到FDSAC在前150次发作中急剧下降并收敛最终达到约6.5。

为了验证LSTM的有效性，作者在下图中为两个数据集说明了LSTM对所提出算法的影响。对于两个数据集，所提出的FDSAC（红线）的性能优于没有LSTM的FDSAC。FDSAC与LSTM的收敛速度更快、更低，因为LSTM可以捕捉历史观测和行动的隐藏信息。具体而言，LSTM对MovieLens数据集的收敛有更大的影响。

图8和图9分别显示了合成数据集和MovieLens数据集的不同BS索引的影响。作者可以从图中看到，在具有不同BS索引的所有情况下，与三种基于规则的缓存算法相比，四种基于RL的缓存算法在平均系统成本方面具有更好的性能。

将所提出的FDSAC算法的性能与基线在平均系统成本与每个边缘服务器的不同缓存大小方面进行了比较。对于这两个数据集，FDSAC在不同缓存大小的平均系统成本上总是优于其他六种算法。同时，随着每个边缘服务器的缓存大小的增加，每个算法的平均系统成本都会降低，因为缓存容量较大的边缘服务器可以为用户缓存更多的内容。特别地，与其他三种基于RL的算法相比，FDSAC具有更快的下降过程。

在下图中说明了软命中对两个数据集的七种缓存算法的影响。一般来说，可以看到，七种具有软命中的缓存算法实现了较低的平均系统成本。这表明所提出的支持推荐的边缘缓存框架可以显著降低系统成本并提高用户QoE。

end

==浙江工业大学城市科学与社会计算研究组==

责任编辑：伊秋华

审核：孔祥杰

感谢您的关注！

边缘计算社区

促进边缘计算领域知识传播