【论文速读】| 通过大语言模型从协议实现中推断状态机

本文主要是介绍【论文速读】| 通过大语言模型从协议实现中推断状态机，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本次分享论文：Inferring State Machine from the Protocol Implementation via Large Language Model

基本信息

原文作者：Haiyang Wei, Zhengjie Du, Haohui Huang, Yue Liu, Guang Cheng, Linzhang Wang, Bing Mao
作者单位：南京大学，奇安信集团，东南大学网络科学与工程学院
关键词：大语言模型, 协议逆向工程, 状态机, 代码分析
原文链接：https://arxiv.org/html/2405.00393v1
开源代码：暂无

论文要点

论文简介：本文提出了一种利用大语言模型（LLM）从网络协议实现中推断状态机的方法。此方法通过文本嵌入技术，使LLM能够深入分析协议实现代码的细节，并通过系统的提示工程识别和推断潜在的状态机。实验结果表明，该方法在六种不同的协议实现中的平均准确率超过90%，且在与协议模糊测试工具AFLNet集成时，能显著提高代码覆盖率。

研究目的：针对动态分析可能因测试覆盖不全而遗漏关键状态转换，以及静态分析在处理复杂代码结构时的挑战，本文提出了一种基于大语言模型（LLM）的状态机推断方法。该方法旨在通过文本嵌入技术和提示工程技术，利用大语言模型的深度理解和代码生成能力，从协议实现代码中准确推断出状态机，以提高协议安全性分析的效率和准确性。

研究贡献：

1. 首次将大语言模型应用于从协议实现中推断状态机的问题，展示了LLM在处理复杂协议实现中的潜力；

2. 开发了一种名为PROTOCOLGPT的工具，自动化推断状态机；

3. 通过一系列实验验证了LLM在提取状态机方面的有效性，使用PROTOCOLGPT揭示了不同实现间的状态机差异，并提高了协议模糊测试工具的效果。

引言

本文首先介绍了状态机在网络协议分析中的重要性，并探讨了传统分析方法的局限性。接着，提出采用大语言模型（LLM）来克服这些限制，通过文本嵌入技术深入分析协议实现代码，并系统地通过提示工程技术推断潜在的状态机。该方法的优势在于能够处理复杂的代码结构，并且通过实验验证，显示出其在协议模糊测试中超过90%的准确率和显著提升的代码覆盖率。

研究背景

在网络协议分析领域，准确提取状态机对于验证协议安全性和理解协议功能是至关重要的。传统的状态机推断方法主要依赖动态分析和静态分析：动态分析受限于测试覆盖范围，而静态分析则难以应对复杂的代码结构。近年来，自然语言处理技术已开始应用于从协议规范文档中提取状态机，但RFC文档的模糊性常常导致不同实现之间的差异，从而增加了协议安全分析的难度。因此，开发一种新的状态机推断方法以应对这些挑战变得尤为重要。

研究动机

随着网络协议的复杂性日益增加，传统状态机推断方法面临众多挑战。尤其是由于RFC文档固有的模糊性，不同开发者可能会采用不同的实现方式应对同一协议规范，导致实现间存在显著差异。这些差异不仅妨碍了状态机的准确推断，还可能成为网络安全的潜在风险点。此外，尽管现有的自然语言处理技术能够从文档中提取信息，但在处理源代码时往往显得不足。因此，本研究旨在利用大语言模型（LLM）的强大代码分析能力，改进状态机推断方法，以提高协议实现分析的准确性和安全性。

PROTOCOLGPT

PROTOCOLGPT是一种创新的工具，它利用大语言模型（LLM）从协议实现代码中推断状态机。通过精细的提示工程和文本嵌入技术，PROTOCOLGPT能够指导LLM深入分析复杂的代码结构，并准确推断出状态机。这款工具不仅提高了状态机推断的准确性，而且通过自动化的代码分析过程显著提升了分析效率。此外，PROTOCOLGPT还集成了代码预处理功能，优化了代码段的分析过程，确保从庞大且复杂的协议实现中高效、准确地提取状态机信息。

实验评估

为验证PROTOCOLGPT的效果，本研究对六种不同的协议实现进行了状态机推断实验。通过比较PROTOCOLGPT、传统方法和未使用代码辅助的LLM模型，实验结果显示PROTOCOLGPT在状态机推断的准确率和效率上均有显著提升，平均准确率超过90%。此外，PROTOCOLGPT推断出的状态机被应用于协议模糊测试工具AFLNet，成功提高了代码覆盖率，进一步证明了其在实际应用中的有效性和实用性。这些实验不仅展示了PROTOCOLGPT的技术优势，也突显了大语言模型在网络协议安全分析中的潜力。