【论文速读】| 通过大语言模型从协议实现中推断状态机

2024-06-12 12:36

本文主要是介绍【论文速读】| 通过大语言模型从协议实现中推断状态机,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图片

本次分享论文:Inferring State Machine from the Protocol Implementation via Large Language Model

基本信息

  • 原文作者:Haiyang Wei, Zhengjie Du, Haohui Huang, Yue Liu, Guang Cheng, Linzhang Wang, Bing Mao

  • 作者单位:南京大学,奇安信集团,东南大学网络科学与工程学院

  • 关键词:大语言模型, 协议逆向工程, 状态机, 代码分析

  • 原文链接:https://arxiv.org/html/2405.00393v1

  • 开源代码:暂无

论文要点

论文简介:本文提出了一种利用大语言模型(LLM)从网络协议实现中推断状态机的方法。此方法通过文本嵌入技术,使LLM能够深入分析协议实现代码的细节,并通过系统的提示工程识别和推断潜在的状态机。实验结果表明,该方法在六种不同的协议实现中的平均准确率超过90%,且在与协议模糊测试工具AFLNet集成时,能显著提高代码覆盖率。

研究目的:针对动态分析可能因测试覆盖不全而遗漏关键状态转换,以及静态分析在处理复杂代码结构时的挑战,本文提出了一种基于大语言模型(LLM)的状态机推断方法。该方法旨在通过文本嵌入技术和提示工程技术,利用大语言模型的深度理解和代码生成能力,从协议实现代码中准确推断出状态机,以提高协议安全性分析的效率和准确性。

研究贡献:

1. 首次将大语言模型应用于从协议实现中推断状态机的问题,展示了LLM在处理复杂协议实现中的潜力;

2. 开发了一种名为PROTOCOLGPT的工具,自动化推断状态机;

3. 通过一系列实验验证了LLM在提取状态机方面的有效性,使用PROTOCOLGPT揭示了不同实现间的状态机差异,并提高了协议模糊测试工具的效果。

引言

本文首先介绍了状态机在网络协议分析中的重要性,并探讨了传统分析方法的局限性。接着,提出采用大语言模型(LLM)来克服这些限制,通过文本嵌入技术深入分析协议实现代码,并系统地通过提示工程技术推断潜在的状态机。该方法的优势在于能够处理复杂的代码结构,并且通过实验验证,显示出其在协议模糊测试中超过90%的准确率和显著提升的代码覆盖率。

研究背景

在网络协议分析领域,准确提取状态机对于验证协议安全性和理解协议功能是至关重要的。传统的状态机推断方法主要依赖动态分析和静态分析:动态分析受限于测试覆盖范围,而静态分析则难以应对复杂的代码结构。近年来,自然语言处理技术已开始应用于从协议规范文档中提取状态机,但RFC文档的模糊性常常导致不同实现之间的差异,从而增加了协议安全分析的难度。因此,开发一种新的状态机推断方法以应对这些挑战变得尤为重要。

研究动机

随着网络协议的复杂性日益增加,传统状态机推断方法面临众多挑战。尤其是由于RFC文档固有的模糊性,不同开发者可能会采用不同的实现方式应对同一协议规范,导致实现间存在显著差异。这些差异不仅妨碍了状态机的准确推断,还可能成为网络安全的潜在风险点。此外,尽管现有的自然语言处理技术能够从文档中提取信息,但在处理源代码时往往显得不足。因此,本研究旨在利用大语言模型(LLM)的强大代码分析能力,改进状态机推断方法,以提高协议实现分析的准确性和安全性。

图片

PROTOCOLGPT

PROTOCOLGPT是一种创新的工具,它利用大语言模型(LLM)从协议实现代码中推断状态机。通过精细的提示工程和文本嵌入技术,PROTOCOLGPT能够指导LLM深入分析复杂的代码结构,并准确推断出状态机。这款工具不仅提高了状态机推断的准确性,而且通过自动化的代码分析过程显著提升了分析效率。此外,PROTOCOLGPT还集成了代码预处理功能,优化了代码段的分析过程,确保从庞大且复杂的协议实现中高效、准确地提取状态机信息。

图片

实验评估

为验证PROTOCOLGPT的效果,本研究对六种不同的协议实现进行了状态机推断实验。通过比较PROTOCOLGPT、传统方法和未使用代码辅助的LLM模型,实验结果显示PROTOCOLGPT在状态机推断的准确率和效率上均有显著提升,平均准确率超过90%。此外,PROTOCOLGPT推断出的状态机被应用于协议模糊测试工具AFLNet,成功提高了代码覆盖率,进一步证明了其在实际应用中的有效性和实用性。这些实验不仅展示了PROTOCOLGPT的技术优势,也突显了大语言模型在网络协议安全分析中的潜力。

图片

论文结论

本研究成功开发了PROTOCOLGPT工具,该工具融合了大语言模型(LLM)的先进能力,从而有效地从协议实现代码中推断状态机。实验结果证明,PROTOCOLGPT能够准确地从复杂的协议代码中提取状态机,其准确性和效率均优于传统方法。

此外,PROTOCOLGPT在提升协议模糊测试工具AFLNet的代码覆盖率方面也取得了显著效果。这表明,利用LLM进行状态机推断不仅能提升网络协议分析的质量,还能增强网络安全防护的能力。本研究为未来网络协议分析与安全领域提供了新的思路和工具。

原作者:论文解读智能体

校对:小椰风

图片

这篇关于【论文速读】| 通过大语言模型从协议实现中推断状态机的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1054236

相关文章

C语言中联合体union的使用

本文编辑整理自: http://bbs.chinaunix.net/forum.php?mod=viewthread&tid=179471 一、前言 “联合体”(union)与“结构体”(struct)有一些相似之处。但两者有本质上的不同。在结构体中,各成员有各自的内存空间, 一个结构变量的总长度是各成员长度之和。而在“联合”中,各成员共享一段内存空间, 一个联合变量

C++对象布局及多态实现探索之内存布局(整理的很多链接)

本文通过观察对象的内存布局,跟踪函数调用的汇编代码。分析了C++对象内存的布局情况,虚函数的执行方式,以及虚继承,等等 文章链接:http://dev.yesky.com/254/2191254.shtml      论C/C++函数间动态内存的传递 (2005-07-30)   当你涉及到C/C++的核心编程的时候,你会无止境地与内存管理打交道。 文章链接:http://dev.yesky

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

大语言模型(LLMs)能够进行推理和规划吗?

大语言模型(LLMs),基本上是经过强化训练的 n-gram 模型,它们在网络规模的语言语料库(实际上,可以说是我们文明的知识库)上进行了训练,展现出了一种超乎预期的语言行为,引发了我们的广泛关注。从训练和操作的角度来看,LLMs 可以被认为是一种巨大的、非真实的记忆库,相当于为我们所有人提供了一个外部的系统 1(见图 1)。然而,它们表面上的多功能性让许多研究者好奇,这些模型是否也能在通常需要系

通过SSH隧道实现通过远程服务器上外网

搭建隧道 autossh -M 0 -f -D 1080 -C -N user1@remotehost##验证隧道是否生效,查看1080端口是否启动netstat -tuln | grep 1080## 测试ssh 隧道是否生效curl -x socks5h://127.0.0.1:1080 -I http://www.github.com 将autossh 设置为服务,隧道开机启动

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测 目录 时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测基本介绍程序设计参考资料 基本介绍 MATLAB实现LSTM时间序列未来多步预测-递归预测。LSTM是一种含有LSTM区块(blocks)或其他的一种类神经网络,文献或其他资料中LSTM区块可能被描述成智能网络单元,因为

vue项目集成CanvasEditor实现Word在线编辑器

CanvasEditor实现Word在线编辑器 官网文档:https://hufe.club/canvas-editor-docs/guide/schema.html 源码地址:https://github.com/Hufe921/canvas-editor 前提声明: 由于CanvasEditor目前不支持vue、react 等框架开箱即用版,所以需要我们去Git下载源码,拿到其中两个主

android一键分享功能部分实现

为什么叫做部分实现呢,其实是我只实现一部分的分享。如新浪微博,那还有没去实现的是微信分享。还有一部分奇怪的问题:我QQ分享跟QQ空间的分享功能,我都没配置key那些都是原本集成就有的key也可以实现分享,谁清楚的麻烦详解下。 实现分享功能我们可以去www.mob.com这个网站集成。免费的,而且还有短信验证功能。等这分享研究完后就研究下短信验证功能。 开始实现步骤(新浪分享,以下是本人自己实现

基于Springboot + vue 的抗疫物质管理系统的设计与实现

目录 📚 前言 📑摘要 📑系统流程 📚 系统架构设计 📚 数据库设计 📚 系统功能的具体实现    💬 系统登录注册 系统登录 登录界面   用户添加  💬 抗疫列表展示模块     区域信息管理 添加物资详情 抗疫物资列表展示 抗疫物资申请 抗疫物资审核 ✒️ 源码实现 💖 源码获取 😁 联系方式 📚 前言 📑博客主页:

探索蓝牙协议的奥秘:用ESP32实现高质量蓝牙音频传输

蓝牙(Bluetooth)是一种短距离无线通信技术,广泛应用于各种电子设备之间的数据传输。自1994年由爱立信公司首次提出以来,蓝牙技术已经经历了多个版本的更新和改进。本文将详细介绍蓝牙协议,并通过一个具体的项目——使用ESP32实现蓝牙音频传输,来展示蓝牙协议的实际应用及其优点。 蓝牙协议概述 蓝牙协议栈 蓝牙协议栈是蓝牙技术的核心,定义了蓝牙设备之间如何进行通信。蓝牙协议