SEI文献整理1：Complex Neural Networks for Radio Frequency Fingerprinting（2019）

本文主要是介绍SEI文献整理1：Complex Neural Networks for Radio Frequency Fingerprinting（2019），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

[1] James Stankowicz, J. R., Joseph M. Carmack, Scott Kuzdeba (2019). Complex Neural Networks for Radio Frequency Fingerprinting. Western New York Image and Signal Processing Workshop (WNYISPW) 2019 IEEE: 1-5.

文章目录

- - 摘要
  - 一、导言
  - 二、数据与实验
  - 三、方法
  - 四、结果
  - 五、结论

摘要

利用深度学习技术，设计了一种以复数无线信号为输入的射频（RF）指纹算法，并输出传输信号设备的身份。我们研究了由于输入表示、标签的选择和复数值的处理方式的变化而导致的性能精度的变化。我们报告了对设备数量、训练集大小、信噪比和环境信道的敏感性。训练数据是来自数千台设备的实时传输。
关键词：深度学习，射频指纹，机器学习，辐射源识别，神经网络

一、导言

射频（RF）指纹算法旨在检测各种因素（例如，电子元件的工作特性、硬件的制造差异）如何导致设备特定于理想传输信号的偏差。在确定如何使用射频指纹来增强网络安全方面，特别是通过防止恶意第三方在物联网（IoT）网络上模拟受信任的设备，有着积极的研究（见[1]的概述）。

[1] Q. Xu, R. Zheng, W. Saad, and Z. Han, “Device fingerprinting in wireless networks: Challenges and opportunities,” IEEE Communications Surveys & Tutorials, vol. 18, no. 1, pp. 94–104, 2016.

传统的射频指纹识别通过识别和建模特定于设备的特征[2]–[5]，并且仅限于单个协议（如Wi-Fi）内的小群体（∼10个设备）。使用专家特征来识别真实世界的物联网设备是很困难的，因为这样的网络会随着时间的推移而增长并合并新的设备。

[2] O. Ureten and N. Serinken, “Bayesian detection of Wi-Fi transmitter RF fingerprints,” Electronics Letters, vol. 41, no. 6, pp. 373–374, March 2005.
[3] M. Liu and J. F. Doherty, “Nonlinearity Estimation for Specific Emitter Identification in Multipath Channels,” IEEE Transactions on Information Forensics and Security, vol. 6, no. 3, pp. 1076–1085, Sep. 2011.
[4] C. Bertoncini, K. Rudd, B. Nousain, and M. Hinders, “Wavelet Fingerprinting of Radio-Frequency Identification (RFID) Tags,” IEEE Transactions on Industrial Electronics, vol. 59, no. 12, pp. 4843–4850, Dec 2012.
[5] S. D’Agostino, “Specific emitter identification based on amplitude features,” in 2015 IEEE International Conference on Signal and Image Processing Applications (ICSIPA), Oct 2015, pp. 350–354.

开发一种深度学习的射频指纹识别算法是一个很有前途的方向。深度学习通过算法从数据（这里指射频指纹和射频信号）中提取特征。在某些情况下，如果学习算法受益于增加训练数据的多样性，深度学习还可以将数量不断增加的物联网设备从劣势转变为优势。为射频领域开发深度学习算法的可行性已被证明适用于小型设备计数和/或高度受控的波形[6]–[10]，以及与射频指纹相关的许多领域[11]–[13]。

[6] S. Riyaz, K. Sankhe, S. Ioannidis, and K. Chowdhury, “Deep Learning Convolutional Neural Networks for Radio Identification,” IEEE Communications Magazine, vol. 56, no. 9, pp. 146–152, Sep. 2018.
[7] L. J. Wong, W. C. Headley, S. Andrews, R. M. Gerdes, and A. J. Michaels, “Clustering Learned CNN Features from Raw I/Q Data for Emitter Identification,” in MILCOM 2018 - 2018 IEEE Military Communications Conference (MILCOM), Oct 2018, pp. 26–33.
[8] H. Jafari, O. Omotere, D. Adesina, H. Wu, and L. Qian, “IoT Devices Fingerprinting Using Deep Learning,” in MILCOM 2018 - 2018 IEEE Military Communications Conference (MILCOM), Oct 2018, pp. 1–9.
[9] K. Youssef, L.-S. Bouchard, K. Haigh, J. Silovsky, B. Thapa, and C. Vander Valk, “Machine Learning Approach to RF Transmitter Identification,” IEEE Journal of Radio Frequency Identification, 2018.
[10] J. M. McGinthy, L. J. Wong, and A. J. Michaels, “Groundwork for Neural Network-Based Specific Emitter Identification Authentication for IoT,” IEEE Internet of Things Journal, pp. 1–1, 2019.
[11] T. J. O’Shea, J. Corgan, and T. C. Clancy, “Convolutional Radio Modulation Recognition Networks,” arXiv e-prints, p. arXiv:1602.04105, Feb 2016.
[12] K. Karra, S. Kuzdeba, and J. Petersen, “Modulation recognition using hierarchical deep neural networks,” in 2017 IEEE International Symposium on Dynamic Spectrum Access Networks (DySPAN), March 2017, pp. 1–3.
[13] J. Jagannath, N. Polosky, A. Jagannath, F. Restuccia, and T. Melodia, “Machine Learning for Wireless Communications in the Internet of Things: A Comprehensive Survey,” arXiv e-prints, p. arXiv:1901.07947, Jan 2019.

在这项工作中，我们使用了一个大型的实时数据集。我们展示了如何处理复数输入，选择输出，以及处理复数影响神经网络训练的射频指纹任务的性能精度。我们的原始数据是由无线设备传输的复值时间序列，称为同相正交（IQ）数据。我们总是用IQ数据作为指纹算法的输入。我们测试用相同数据的谱表示来增加输入IQ数据。我们总是尝试学习设备标签。标签有时用设备协议扩充，有时用自动编码器中使用的原始IQ数据扩充。我们测试了几个完全连接（FC）神经网络。我们要么独立地处理输入数据的I和Q分量，要么作为共享神经网络权值的复数对。

二、数据与实验

本节详细介绍了用于训练和验证模型的数据。我们还将完整的数据集划分为不同的子集，以探索我们模型的各种局限性。
数据集：我们使用国防高级研究计划局（DARPA）资助的射频机器学习系统（RFMLS）研究项目[14]中11TB的设备数据。数据集中的信号是实时传输的。在信号到达接收器之前，我们无法访问这些信号-这与过去大多数深入学习的射频指纹识别工作相比，增加了额外的复杂性。

[14] “The Radio Frequency Spectrum + Machine Learning = A New Wave in Radio Technology,” https://www.darpa.mil/news-events/2017-08-11a, (Accessed on 04/08/2019).

数据集由Wi-Fi和ADS-B组成。Wi-Fi数据子集由来自53000多台设备的1.03亿个信号组成。我们没有关于子集中特定设备的信息，但知道子集中包含各种手机、笔记本电脑和其他使用802.11a（5 GHz）或802.11g（2.4 GHz）IEEE标准的常见Wi-Fi设备。ADS-B数据子集由来自10000多台设备的350万个信号组成。该协议被飞机用来传输识别和实时飞行信息。
每个信号都附带元数据，包括接收设备的详细信息（制造商、采样率、中心频率等）和有关信号的信息（持续时间、上下限、设备制造商、设备标签等）。

实验：从完整数据集的子集中，我们设计了四个实验组，每个实验组都有自己的训练集和验证集。实验组1改变训练集中存在的设备数量。第2组改变训练集中每个设备的信号数。组3改变信号传播的环境通道。第4组改变信噪比（SNR）。这些实验组总结在表一的左半部分。

三、方法

我们现在讨论我们的数据管道：问题描述、数据预处理、输入表示的选择、体系结构和输出表示。对于本节中输入、输出和体系结构的每个选择，我们执行第二节中列出的所有实验。我们测量每个实验的训练网络的验证精度。结果见表1。

公式：我们将RF指纹问题描述为定义一个映射的分类任务，其中每个输入是无线信号的某种表示，每个输出包括设备标签。对于输入，我们有时使用IQ数据并进行增强（参见第二节和图1）。对于输出，我们使用设备标签，有时有所增加（参见第二节和图1）。

数据预处理：我们采用标准的信号处理技术来清洗我们作为输入的IQ数据和频谱。我们根据元数据中所示的时间和频率界限来设计带通滤波器。我们将所有输入信号重新采样到100Msps，这高于元数据中已知的奈奎斯特速率。
随后，我们截断每个输入信号，使其仅包含前1600个IQ值（100 Msps时为16µs）。这确保了输入大小不变。这也保证了编码设备的ID部分（Wi-Fi中的MAC地址；ADS-B中的ICAO）不被用作模型的输入，因为这些信号部分出现在这些最初的1600个值之后。这种编码的ID很容易被第三方欺骗，因此如果我们不从输入中删除ID，我们就不能解决基于硬件的射频指纹识别的核心问题。

输入表示：对于输入，我们使用1）复数值的IQ时间序列 ${\bf IQ}=(z_0\ z_1 \ \cdots \ z_{n-1})^T$ ，其中 $z_i=I_i+jQ_i\in {\mathbb C}$ ；或者2)将IQ数据与其频谱数据级联，即 ${\bf IQS}=({\bf IQ}^T\ {\bf s}_1^T\ {\bf s}_2^T \cdots \ {\bf s}_m^T)^T$ ，这里的 ${\bf s}_i$ 为 $\bf IQ$ 的短时傅里叶变换。对于 ${\bf s}_i$ ，我们使用了通过python scipy【15】实现的矩阵的列。我们报告了一个没有窗口重叠的100频点谱图和100频点傅里叶变换的结果，作为一个例子，验证精度很高。

[15] E. Jones, T. Oliphant, P. Peterson et al., “SciPy: Open source scientific tools for Python,” 2001– , [Online; accessed ¡today¿]. [Online]. Available: http://www.scipy.org/

在这里插入图片描述
网络结构：我们使用一个独立处理I和Q时间序列的神经网络，或者一个将权重联系在一起的神经网络，以便值在复数乘法下发生变化。神经网络中复杂层的处理基于[16]。我们使用了其中的激活函数 $f(z)={\rm ReLU}({\mathscr R}(z))+j{\rm ReLU}({\mathscr I}(z))$ 。

[16] C. Trabelsi, O. Bilaniuk, D. Serdyuk, S. Subramanian, J. F. Santos, S. Mehri, N. Rostamzadeh, Y. Bengio, and C. J. Pal, “Deep Complex Networks,” CoRR, vol. abs/1705.09792, 2017. [Online]. Available: http://arxiv.org/abs/1705.09792

在autoencoder的情况下，我们将原始网络的反向版本连接到最后一个隐藏层，与分类层并行。这个新的层堆栈用作解码器，而原始网络是编码器。分类器损失函数被更新，以包括测量解码器和原始IQ输入之间的差异的均方误差项。这个新项迫使网络学习更一般的波形特征，从而提高对不同信道和信噪比的概括。我们使用了五个尺寸为1600×2500、400、300、200的堆叠层。自动编码器具有尺寸为300、400、500、1600×2的额外解码器层。
输出表示：我们训练模型学习各种输出组合。我们总是在输出中使用设备标签one hot编码（OHE）。在一些实验中，我们只使用设备OHE【图1，第(i)-(iii)列】。在一些实验中，我们使用与输入信号串联的设备OHE【图1，第(iv)列）。在最后一组实验中，我们使用设备OHE与协议OHE连接【图1，第(v)列】，在网络的总体损失函数中添加分类交叉熵（CCE）项。由于RF指纹是由硬件决定的，并且由于不同的硬件用于在不同的协议上传输，因此损失函数中的这个新项被设计成基于协议将RF指纹的表示分为多个组，期望在协议簇内发生进一步的设备分簇。

四、结果

第二节所述实验的结果如表I.2所示。汇总水平趋势表明，验证性能在以下情况下提高：

用复数计算；
对输入使用频谱增强；
设备数量减少；
每个设备的训练示例数量增加；
训练和验证射频环境类似。

我们报告了在使用CCE损失函数（在某些情况下如第2节所述进行了修改）进行训练后，在验证信号子集上推断设备标签的结果。我们使用反向传播和Adam优化器进行训练。

实验组1根据训练集和验证集中的设备数量改变实验。实验1.A使用了1000台设备，比以前的研究大了一个数量级。
正如预期的那样，随着设备数量的增加，精确度降低（实验1.A到1.C）。训练输入的数量在所有情况下都是相同的，每个设备有218个训练信号。预计更大的训练规模将提高性能，但设备数量对性能的影响趋势仍将保持。
复神经网络总是比非复网络有更高的精度（例如：（1.A，ii）比（1.A，i））。我们注意到，具有 $N$ 个复输入的网络是具有 $2 N$ 个实输入的网络的复杂度下限，因此复值模型可能优于实值模型，因为与自由参数较少的模型相比，具有更多参数的模型往往会过度拟合。
此外，使用复数网络和谱图输入表示产生了更进一步的改进（例如，（1.a，iii）与（1.a，ii））。在损失函数中添加新项（用于自动编码器重建或者one-hot协议编码而言）对性能没有帮助（例如，（1.A，iv）与（1.A，iii））。
对于这类实验，我们还只对单个协议进行训练（表中未报告）；例如，仅使用ADS-B信号作为训练输入。这并不比在所有信号上联合训练产生更高的精确度。因此，当让分类器在完整的数据集上形成自己的表示形式时，分类器学习得更好，而引入的数据划分更少。

实验组2在保持设备总体不变的情况下，根据每个训练集中的样本数改变实验。
这里的趋势也是合理的：训练实例越多，训练的准确率就越高（实验2.a的分数比实验2.C的分数高）。
与实验组1一样，提高模型的复杂度可以提高性能；复数谱增强模型的性能最好（例如（2.A）中（2.A，iii）的精度最高。）然而，当训练规模较小时，这种益处很小，只有1%（（2.C，iii）对（2.C，ii））。

实验组3根据无线信道的相似性进行信号分割。此组仅包含Wi-Fi信号，因为ADS-B信号的信道大致保持不变。有两个信道。信道1对应于接收器位于包含固定设备（例如，放在桌子上的笔记本电脑）和移动设备（例如，某人口袋中的电话）的建筑物内。信道2对应于接收机在不同的一天在同一建筑物外。这意味着训练集中的信号将共享一些不同于验证集中共享信道特性的信道特性。
实验3.A（i），（ii）和（iv）是表现最差的实验，得分并不比偶然性（2%）好多少。这可能表明所学习的指纹是依赖于信道的。实验3.B展示了将算法的训练阶段暴露在强变化的输入中的能力：3.A训练和验证数据的shuffling允许分类器学习，尽管存在信道效应。实验3.C和3.D强调分类器在一个x信道内得分很高。
对于实值网络（分别为（3.a，ii）和（3.a，i），使用复数神经网络并不能提高精度。将网络暴露于频谱信息确实有帮助（（3.A，iii）vs.（3.A，i）），可能是因为无线信道通常依赖于频率。

实验组4按信噪比进行信号分割。该组仅包含ADS-B信号，因为在更拥挤的Wi-Fi频段很难估计信噪比。信噪比有三种分类：低（信噪比<2 dB）、中（2 dB $\le$ 信噪比 $\le$ 5dB）和高（信噪比>5 dB）。
前两个得分（4.C，iv）和（4.E，iv）对应于验证高于训练信噪比的情况，最差的分数（4.B，iii）和（4.D，i）对应于验证低于训练信噪比的情况。这在模型可能学习的指纹特征的上下文中是有意义的。当训练信噪比低于验证信噪比时，在训练中学习到的指纹特征仍然存在于验证中。然而，当训练信噪比大于验证信噪比时，一些指纹特征可能会被附加噪声抑制。在第二种情况下，经过训练的网络仍然学习具有代表性的特征，但是训练分布和验证分布并不一致。

一般来说，高信噪比情况下比低信噪比表现更好。这与射频指纹是信噪比函数的概念是一致的。
这是第一个附加频谱信息不能提高精确度的实验组。实验（4.B，iii）得分低于最简单的案例（4.B，I）。
该组是第一个重建信号以提高验证精度的组（例如（4.C，iv）v.s.（4.C，iii））。这是合理的，因为网络从损失中的额外重建项中学习噪声（见Section 2中的讨论）。

五、结论

我们探讨了输入表示、输出表示和复值处理对FC神经网络RF指纹识别性能的影响。数据集由许多具有真实射频环境所有复杂性的实时信号设备组成。我们发现使用频谱-时间而不是纯粹的信号时间表示的好处。我们还发现将模型输入视为复数时间序列而不是两个实值时间序列的好处。
在相关的工作[17]中，我们证明了一个扩展的因果卷积模型比这里给出的最好的模型有更好的性能。接下来的步骤包括通过扩展该模型来处理复杂的算法和激活函数，并利用频谱数据，将两点结合起来。
训练和验证信号之间的分布差异是一个主要问题。在实验3和实验4中，文献[17]中的扩展因果卷积模型的得分并不比这里的复数和谱得分高得多。解决这个问题可能需要增加数据或找到不同的输入表示法，以部分消除信道效应，例如音频机器学习中使用的cepstrograms。