结合先验知识的通信智能抗干扰技术

刘晓明，杨春，刘友江，曹韬; LIU Xiaoming; YANG Chun; LIU Youjiang; CAO Tao

使用Chrome浏览器效果最佳，继续浏览，你可能不会看到最佳的展示效果，

确定继续浏览么?

复制成功，请在其他浏览器进行阅读

摘要

针对当前智能抗干扰技术在面对快速变化的干扰表现较差的问题，提出结合先验知识网络的新型智能抗干扰技术。首先构建先验知识网络，根据历史干扰信息实现对下一时刻干扰信息的预测，使系统更好地应对快速变化的干扰；然后利用强化学习算法实现对新的干扰规律的在线学习，使算法可以适用于干扰动态变化超出离线学习模型适应范围的场景。将所提算法与无先验知识的强化学习算法进行仿真对比，结果表明，所提算法在面对快速变化的干扰时，具有更高的决策准确率和更快的收敛速度，并对环境有较好的适应性，能够有效地进行智能抗干扰。

关键词

无线通信; 抗干扰; 强化学习; 智能决策; 先验知识

随着无线通信技术的发展，通信内容越来越丰富的同时，信息传输环境也愈发复杂多变^[

1]。通信的质量、效率对于复杂的干扰越来越敏感，抗干扰面临的挑战也越来越多^{[参考文献 2

百度学术}2]。将人工智能算法与抗干扰相结合形成的智能抗干扰技术成为目前抗干扰领域的研究热点^{[参考文献 3-5}3-5]。智能抗干扰技术就是使通信设备更加智能化，设备能够根据目前的电磁环境，自动选择最优的通信参数，实现高效可靠的抗干扰通信^{[参考文献 6-7}6-7]。

智能抗干扰技术的核心是实时决策，系统实时智能决策出当前应该采用的最佳通信策略参数配置^[

8]。通信中可选的通信策略维度有很多，如信号功率、通信频点和调制方式等。智能抗干扰系统能够改变的策略维度越高，在面对干扰时应对方案会越多。但在实际应用中，面对复杂快速变化的干扰时，实时决策难以实现，高维策略的智能抗干扰算法难以收敛。因此，目前已有的研究大多为应对缓变干扰的低维度智能决策^{[参考文献 9-11}9-11]。

目前决策算法的研究主要有两类：一类是使用机器学习算法^[

12]。这类算法实现简单，鲁棒性强，在缓变的无规则干扰中表现较好^{[参考文献 13

百度学术}13]，但在面对智能干扰和快速变化的干扰时，很难设计出有效的抗干扰策略；另一类则是基于强化学习算法^{[参考文献 14

百度学术}14]。强化学习算法能够在通信中与环境进行交互，不断优化自身通信策略，可以很好地应对快速变化的规律性干扰，且可以更好地进行在线学习。但强化学习算法会不可避免地出现学习参数个数随着状态变量维数呈指数增长的问题，即“维数灾”^{[参考文献 15-16}15-16]，这一问题严重制约着强化学习算法在智能抗干扰通信技术中的应用。

针对以上问题，本文提出一种结合先验知识的基于强化学习的智能抗干扰技术。该技术通过历史干扰参数预测下一时刻的干扰参数，然后决策出下一时刻的最优通信策略；同时强化学习算法使系统拥有在线学习能力，在干扰动态变化超过离线学习模型适应范围的情况下，可以利用在线学习能力学习新的干扰规律以适应动态变化的干扰。该技术还通过引入先验知识网络，解决强化学习带来的无效探索过多、收敛速度慢的问题。

1 系统模型

系统模型由发射方、接收方和干扰方组成，如图1所示。接收方感知频谱信息并通过安装在接收方的智能决策模块制定实时的抗干扰策略，然后通过可靠链路反馈给发射方。

图1 信号传输与干扰模型

Fig.1 Signal transmission and interference model

假设用户在t时刻发射信号的中心频率为 $f_{t}$ ，功率为 $p_{t}$ ，传输带宽为 $b_{t}$ ，噪声的功率谱密度(Power Spectral Densities，PSD)函数为 $n (f)$ ，干扰信号的 $P S D$ 函数为 $j (f)$ ， $g_{t}^{(u)}$ 表示传输链路的信道增益， $g_{t}^{(m)}$ 表示干扰链路的信道增益。则信干噪比(Signal to Interference plus Noise Ratio，SINR)为：

R_{S I N} = β (f_{t}) = \frac{g_{t}^{(u)} p_{t}}{\int_{f_{t} - b_{t} / 2}^{f_{t} + b_{t} / 2} \{n (f) + g_{t}^{(m)} j (f)\} d f}

(1)

然后可以根据接收到的信干噪比是否大于成功通信的阈值，判断通信是否成功，判断公式为：

γ (f_{t}) = \{\begin{matrix} 1 & β (f_{t}) \geq β_{S I N R} \\ 0 & β (f_{t}) < β_{S I N R} \end{matrix}

(2)

式中 $β_{S I N R}$ 为成功传输的 $S I N R$ 的阈值。当接收到的信噪比大于阈值时，反馈为1，视为传输成功；否则，反馈为0，视为传输失败。

2 融合先验知识网络的智能抗干扰技术

2.1 快速变化的干扰

传统智能抗干扰决策系统只能感知目前的干扰信息，然后通过目前的干扰信息进行决策，并将决策出的最优策略发送给发射机，让发射机按照最优策略进行通信。对于干扰快速变化的情况如果仍用上一时刻干扰信息得到的最优策略进行通信，会出现无法通信或无法实现最优通信的情况。本文提出的智能抗干扰技术主要是为了应对干扰信号快速动态变化场景，即干扰变化周期快于通信周期的情况。

2.2 先验知识网络的构建

提出的先验知识网络的构建过程如图2所示。其中 $S_{t}$ 为 $t - d$ 时刻到 $t$ 时刻的总干扰信息， $S_{t} = [s_{t - d}; s_{t - d + 1}; \dots; s_{t}]$ ， $s_{t + 1}^{'}$ 为预测出的 $t + 1$ 时刻的干扰信息， $A_{N}$ 为策略库中包含的通信中可以使用的所有可选策略，其中通信的策略维度为 $n$ 维，每一维有 $k_{n}$ 种策略，因此策略总数为：

图2 先验知识网络模型

Fig.2 Network model of prior knowledge

N = \prod_{i = 1}^{n} k_{i}

(3)

预测网络为长短时记忆(Long Short Term Memory， $L S T M$ )网络， $L S T M$ 网络主要用于序列数据，并且有一定的记忆效应，能够比其他的网络更好地处理时间序列的任务。预测网络主要利用管理器传输的历史 $t - d$ 到 $t$ 时刻的干扰信息，实现对 $t + 1$ 时刻干扰信息的预测，可以较好地应对快速变化的干扰。决策网络为深度神经网络(Deep Nueral Network， $D N N$ )，主要对预测出的干扰信息下不同策略进行评价，得到 $t + 1$ 时刻的干扰信息所对应的所有通信策略的通信质量 $Q (s_{t + 1}^{'}, A_{N})$ 。

2.3 融合先验知识网络的新型通信智能抗干扰技术

先验知识网络构建后，将其融合到本文设计的通信智能抗干扰结构中，其结构如图3所示。

图3 融合先验知识网络的通信智能抗干扰结构

Fig.3 Intelligent anti-interference structure of communication based on prior knowledge network

发射机通过可靠传输链路生成通信信号，接收机接收到信号后，通过管理器进行数据处理。管理器对提取到的干扰信息进行归一化等数据处理后，将总干扰信息 $S_{t}$ 与所有可选策略 $A_{N}$ 一起送入先验知识网络中。先验知识网络根据信息预测出 $t + 1$ 时刻的干扰信息下所有可选通信策略的评价，并通过目标函数得到下一时刻通信的最优策略 $a_{t + 1}$ ，最终将最优策略通过可靠传输链路反馈给发送方。

在预测最优策略的同时，将上一次通信过程中的数据作为历史经验存入经验回访池中。每一组数据包括上一次通信的历史干扰信息、预测出的新时刻的干扰信息、上一次通信所使用策略 $a_{t}$ 以及以策略 $a_{t}$ 进行通信后的反馈 $r_{t}$ 。反馈 $r_{t}$ 为^[

17]：

r_{t} = γ (f_{t}) - C_{p} P_{u}

(4)

式中： $γ (f_{t})$ 为信号是否传输成功的反馈； $C_{p} P_{u}$ 为传输功率的成本，其中 $C_{p}$ 为单位传输功率的成本。通信过程中，发射功率越大，发射成功的概率就越高。如果对发射机的发射功率没有约束，则系统决策出的最佳通信策略会始终选择最大的发射功率。引入传输成本概念后，系统在决策时会考虑功率的影响，会把能够以尽可能低的功耗实现成功的传输策略作为最优策略。

随着通信的进行，经验回放池的数据会不断地累积，当其中的数据积累到一定程度后，则开始根据设定的网络更新周期，周期性地从经验回放池中抽取一定批量的数据对网络进行再训练，不断更新网络的参数。在通信过程中对网络做进一步的优化，一方面可以得到更好的通信质量，另一方面也让网络有了适应新的干扰规律的能力。

融合先验知识的智能抗干扰算法如下：

初始化：经验池D，数据批量B，策略集A_N，网络更新周期T

输出：返回给发射机的策略a_t₊₁

While(True)

接收机获取环境状态S_t以及上一时刻通信策略a_t、通信策略的反馈r_t，以及通信次数N

将[S_t, S_t+₁, a_t, r_t]作为一组历史数据存入经验池D中

Q=net(S_t, A_N)//net为先验知识网络

Q_max=max(Q)

Q_max $\to$ a_t+₁//得到最大的Q值对应的策略a_t+₁

if N%T=0

从D中随机抽取B组数据对当前网络进行训练

更新当前网络

end

3 仿真实验和结果分析

3.1 仿真参数设置

仿真过程的通信系统包含4种策略维度，分别为通信的调制方式、通信频点、信号功率及信号带宽，具体参数如表1所示。

表1 通信系统仿真参数设置

Table1 Simulation parameter settings of communication system

modulation type	BPSK, QPSK, 16QAM
communication frequency	2.4 GHz+3 MHz, 2.4 GHz+6 MHz, …, 2.4 GHz+27 MHz
power/mW	50, 100, …, 500
bandwidth/MHz	0.6, 1.2, 2.4

仿真过程中通信质量采用信号解调后的误差矢量幅度值(Error Vector Magnitude，EVM)进行衡量。EVM值与SINR之间的关系如式(5)所示，判断通信是否成功的EVM阈值按表2设置。

M_{E V} \approx \frac{1}{\sqrt[]{R_{S I N}}}

(5)

表2 EVM阈值设置

Table2 Threshold setting for EVM

modulation type	BPSK	QPSK	16QAM
$β_{E V M}$	0.3	0.175	0.125

3.2 先验知识网络训练效果

先验知识网络的损失函数为均方误差(Mean Square Error，MSE)函数，均方误差函数的优点是对网络训练中的较大或较小误差非常敏感，如式(6)所示。其中n为样本数， ${\hat{y}}_{i}$ 为网络预测结果， $y_{i}$ 为训练目标值。网络的训练效果如表3所示。

E_{M S} = \frac{1}{n} \sum_{i = 1}^{n} ({\hat{y}}_{i} - y_{i})^{2}

(6)

表3 先验知识网络收敛结果

Table3 Convergence results of prior knowledge networks

parameter	value
bandwidth/MHz	30	30	20	20
speed/(MHz/s)	450	400	450	400
training set results	0.020 1	0.019 9	0.018 5	0.018 2
test set results	0.020 9	0.019 5	0.018 8	0.018 5

文中设置已有先验知识的干扰为扫频干扰，从表3中可以看出，本文设计的先验知识网络在不同参数的扫频干扰下都有很好的收敛效果，网络鲁棒性较好。

3.3 智能抗干扰决策效果

为验证所提算法的可行性与有效性，本文进行了大量的仿真实验。仿真过程中设置已有先验知识的干扰规律如图4所示：干扰为扫频干扰，扫频宽度为30 MHz，扫频速度为450 MHz/s，干扰功率为400 mW。假设干扰为已知的先验知识的干扰，对比本文所提算法与无先验知识的基于深度Q网络(Deep Q-Network，DQN)的强化学习算法^[

18]，结果如图5所示。

图4 扫频干扰频谱图

Fig.4 Spectrum diagram of sweep interference

图5 扫频干扰下两种算法结果对比图

Fig.5 Comparison of results of two algorithms under sweep interference

从图5中可以看出，虽然无先验知识的DQN算法在通信过程中随着次数的增加，其通信准确率也在提升，但由于没有先验知识的引导，在通信初期，通信策略选择的随机性较大，无用探索较多，最终其通信成功率也只达到了60%左右，这样的收敛速度在实际通信过程中是不可接受的。而本文提出的算法由于有先验知识的引导，因此只需在通信过程中对自己的策略进行少量的优化即可收敛，可以达到90%左右的通信成功率。

验证所提算法对新的干扰规律的适应性。将原来的干扰规律进行改变，新的干扰规律设置为：在之前的干扰规律的基础上新增2种不同的干扰规律，分别为有3个固定频段(3~9 MHz、12~18 MHz、21~27 MHz)的梳状干扰及扫频宽度为30 MHz、扫频速度为450 MHz/s的双扫频干扰。干扰规律在3种规律中随机变化，其频谱如图6所示。

图6 多种干扰频谱图

Fig.6 Multiple-interference spectra

在通信50次后，将干扰规律从开始的只有1种扫频干扰变为3种干扰规律随机选择，仿真结果见图7。从图7中可以看出，由于增加了新的干扰规律，2种算法的通信成功率在一开始都会有一定程度的下降。经过一段时间的通信后，本文提出的融合先验知识的强化学习算法依然可以达到80%左右的通信成功率，虽然比只有一种干扰规律下的通信成功率低，但仍高于无先验知识的DQN算法。实验表明本文提出的融合先验知识的算法可在较短时间内有效适应新的干扰规律，提高通信质量。

图7 新增干扰规律时两种算法结果对比图

Fig.7 Results comparison of two algorithms when adding the interference rules

4 结论

本文研究了快速变化通信环境下的智能抗干扰技术，提出了一种结合先验知识的基于强化学习的高维策略智能抗干扰算法。通过引入先验知识引导算法的策略选择过程，证明了该算法能够有效应对快速变化的规律性干扰，算法的收敛速度显著提升，并对新的干扰规律有很好的适应性。

参考文献

杨同茂. 军事通信抗干扰技术的发展现状及趋势[J]. 通信技术, 2014,47(7):707-712. [百度学术]

YANG Tongmao. Developing status quo and trend of military communications anti-jamming technology[J]. Communications Technology, 2014,47(7):707-712. doi:10.3969/j.issn.1002-0802.2014.07.001. [百度学术]

ZOU Yulong,ZHU Jia,WANG Xianbin,et al. A survey on wireless security:technical challenges,recent advances,and future trends[J]. Proceedings of the IEEE, 2016,104(9):1727-1765. doi:10.1109/JPROC.2016.2558521. [百度学术]

LI Haitao,LUO Jiawei,LIU Changjun. Selfish bandit-based cognitive anti-jamming strategy for aeronautic swarm network in presence of multiple jammer[J]. IEEE Access, 2019(7):30234-30243. doi:10.1109/ACCESS.2019.2896709. [百度学术]

陈会林,教富龙,袁泮江,等. 一种智能抗干扰无人机测控系统设计[J]. 电讯技术, 2021,61(6):703-709. [百度学术]

CHEN Huilin,JIAO Fulong,YUAN Panjiang,et al. Design of an intelligent anti-jamming TT&C system for UAV[J]. Telecommunication Engineering, 2021,61(6):703-709. doi:10.3969/j.issn.1001-893x.2021.06.007. [百度学术]

JIAO Jiyu,SUN Xuehong,FANG Liang,et al. An overview of wireless communication technology using deep learning[J]. China Communications, 2021,18(12):1-36. doi:10.23919/JCC.2021.12.001. [百度学术]

JIANG Kun,SU Dan,ZHENG Yanfu. Intelligent acquisition model of traffic congestion information in the vehicle networking environment based on multi-sensor fusion[J]. International Journal of Vehicle Information and Communication Systems, 2019, 4(2):155-169. doi:10.1504/IJVICS.2019.101512. [百度学术]

GALANOPOULOS A,FOUKALAS F,TSIFTSIS T A. Efficient coexistence of LTE with WiFi in the licensed and unlicensed spectrum aggregation[J]. IEEE Transactions on Cognitive Communications and Networking, 2016,2(2):129-140. doi:10.1109/TCCN.2016.2594780. [百度学术]

李少谦,程郁凡,董彬虹,等. 智能抗干扰通信技术研究[J]. 无线电通信技术, 2012,38(1):1-4. [百度学术]

LI Shaoqian,CHENG Yufan, DONG Binhong,et al. Research on intelligent anti-jam communication techniques[J]. Radio Communications Technology, 2012, 38(1):1-4. doi:10.3969/j.issn.1003-3114.2012.01.001. [百度学术]

HANAWAL M K,ABDEL-RAHMAN M J,KRUNZ M. Joint adaptation of frequency hopping and transmission rate for anti-jamming wireless systems[J]. IEEE Transactions on Mobile Computing, 2016,15(9):2247-2259. doi:10.1109/TMC.2015. 2492556. [百度学术]

WANG Jingjing,LIU Meng,ZHANG Yi. Research on intelligent anti-jamming communication with cognitive radio[J]. EAI Endorsed Transactions on Cognitive Communications, 2018,4(14):155074. doi:10.4108/eai.11-5-2018.155074. [百度学术]

ZHAO Lingli. Design of intelligent water-saving irrigation system based on internet of things[J]. Wireless Engineering and Technology, 2022,13(3):33-40. doi:10.4236/wet.2022.133003. [百度学术]

徐甜甜,韩光洁,邹岩,等. 基于混合机器学习的电磁功率谱密度预测模型[J]. 太赫兹科学与电子信息学报, 2021,19(4):623-627. [百度学术]

XU Tiantian,HAN Guangjie,ZOU Yan,et al. Electromagnetic power spectrum density prediction model based on hybrid machine learning[J]. Journal of Terahertz Science and Electronic Information Technology, 2021,19(4):623-627. doi:10.11805/TKYDA2021084. [百度学术]

PIRAYESH H,ZENG H C. Jamming attacks and anti-jamming strategies in wireless networks: a comprehensive survey[J]. IEEE Communications Surveys & Tutorials, 2022,24(2):767-809. doi:10.1109/COMST.2022.3159185. [百度学术]

JIAN Yang,LI Yang. Research on intelligent cognitive function enhancement of intelligent robot based on ant colony algorithm[J]. Cognitive Systems Research, 2019(56):203-212. doi:10.1016/j.cogsys.2018.12.014. [百度学术]

MNIH V,KAVUKCUOGLU K,SILVER D,et al. Human-level control through deep reinforcement learning[J]. Nature, 2015(518): 529-533. doi:10.1038/nature14236. [百度学术]

NOH S. Decision-making framework for autonomous driving at road intersections:safeguarding against collision,overly conservative behavior,and violation vehicles[J]. IEEE Transactions on Industrial Electronics, 2019,66(4):3275-3286. doi: 10.1109/TIE.2018.2840530. [百度学术]

XU Jianliang,LOU Huaxun,ZHANG Weifeng,et al. An intelligent anti-jamming scheme for cognitive radio based on deep reinforcement learning[J]. IEEE Access, 2020(8):202563-202572. doi:10.1109/ACCESS.2020.3036027. [百度学术]

BIN ISSA R,DAS M,RAHMAN M S,et al. Double deep Q-learning and faster R-CNN-based autonomous vehicle navigation and obstacle avoidance in dynamic environment[J]. Sensors, 2021,21(4):1468. doi:10.3390/s21041468. [百度学术]

结合先验知识的通信智能抗干扰技术 PDF

摘要

关键词