【论文速读】| 通过大语言模型从协议实现中推断状态机

2024-06-12 12:36

本文主要是介绍【论文速读】| 通过大语言模型从协议实现中推断状态机,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图片

本次分享论文:Inferring State Machine from the Protocol Implementation via Large Language Model

基本信息

  • 原文作者:Haiyang Wei, Zhengjie Du, Haohui Huang, Yue Liu, Guang Cheng, Linzhang Wang, Bing Mao

  • 作者单位:南京大学,奇安信集团,东南大学网络科学与工程学院

  • 关键词:大语言模型, 协议逆向工程, 状态机, 代码分析

  • 原文链接:https://arxiv.org/html/2405.00393v1

  • 开源代码:暂无

论文要点

论文简介:本文提出了一种利用大语言模型(LLM)从网络协议实现中推断状态机的方法。此方法通过文本嵌入技术,使LLM能够深入分析协议实现代码的细节,并通过系统的提示工程识别和推断潜在的状态机。实验结果表明,该方法在六种不同的协议实现中的平均准确率超过90%,且在与协议模糊测试工具AFLNet集成时,能显著提高代码覆盖率。

研究目的:针对动态分析可能因测试覆盖不全而遗漏关键状态转换,以及静态分析在处理复杂代码结构时的挑战,本文提出了一种基于大语言模型(LLM)的状态机推断方法。该方法旨在通过文本嵌入技术和提示工程技术,利用大语言模型的深度理解和代码生成能力,从协议实现代码中准确推断出状态机,以提高协议安全性分析的效率和准确性。

研究贡献:

1. 首次将大语言模型应用于从协议实现中推断状态机的问题,展示了LLM在处理复杂协议实现中的潜力;

2. 开发了一种名为PROTOCOLGPT的工具,自动化推断状态机;

3. 通过一系列实验验证了LLM在提取状态机方面的有效性,使用PROTOCOLGPT揭示了不同实现间的状态机差异,并提高了协议模糊测试工具的效果。

引言

本文首先介绍了状态机在网络协议分析中的重要性,并探讨了传统分析方法的局限性。接着,提出采用大语言模型(LLM)来克服这些限制,通过文本嵌入技术深入分析协议实现代码,并系统地通过提示工程技术推断潜在的状态机。该方法的优势在于能够处理复杂的代码结构,并且通过实验验证,显示出其在协议模糊测试中超过90%的准确率和显著提升的代码覆盖率。

研究背景

在网络协议分析领域,准确提取状态机对于验证协议安全性和理解协议功能是至关重要的。传统的状态机推断方法主要依赖动态分析和静态分析:动态分析受限于测试覆盖范围,而静态分析则难以应对复杂的代码结构。近年来,自然语言处理技术已开始应用于从协议规范文档中提取状态机,但RFC文档的模糊性常常导致不同实现之间的差异,从而增加了协议安全分析的难度。因此,开发一种新的状态机推断方法以应对这些挑战变得尤为重要。

研究动机

随着网络协议的复杂性日益增加,传统状态机推断方法面临众多挑战。尤其是由于RFC文档固有的模糊性,不同开发者可能会采用不同的实现方式应对同一协议规范,导致实现间存在显著差异。这些差异不仅妨碍了状态机的准确推断,还可能成为网络安全的潜在风险点。此外,尽管现有的自然语言处理技术能够从文档中提取信息,但在处理源代码时往往显得不足。因此,本研究旨在利用大语言模型(LLM)的强大代码分析能力,改进状态机推断方法,以提高协议实现分析的准确性和安全性。

图片

PROTOCOLGPT

PROTOCOLGPT是一种创新的工具,它利用大语言模型(LLM)从协议实现代码中推断状态机。通过精细的提示工程和文本嵌入技术,PROTOCOLGPT能够指导LLM深入分析复杂的代码结构,并准确推断出状态机。这款工具不仅提高了状态机推断的准确性,而且通过自动化的代码分析过程显著提升了分析效率。此外,PROTOCOLGPT还集成了代码预处理功能,优化了代码段的分析过程,确保从庞大且复杂的协议实现中高效、准确地提取状态机信息。

图片

实验评估

为验证PROTOCOLGPT的效果,本研究对六种不同的协议实现进行了状态机推断实验。通过比较PROTOCOLGPT、传统方法和未使用代码辅助的LLM模型,实验结果显示PROTOCOLGPT在状态机推断的准确率和效率上均有显著提升,平均准确率超过90%。此外,PROTOCOLGPT推断出的状态机被应用于协议模糊测试工具AFLNet,成功提高了代码覆盖率,进一步证明了其在实际应用中的有效性和实用性。这些实验不仅展示了PROTOCOLGPT的技术优势,也突显了大语言模型在网络协议安全分析中的潜力。

图片

论文结论

本研究成功开发了PROTOCOLGPT工具,该工具融合了大语言模型(LLM)的先进能力,从而有效地从协议实现代码中推断状态机。实验结果证明,PROTOCOLGPT能够准确地从复杂的协议代码中提取状态机,其准确性和效率均优于传统方法。

此外,PROTOCOLGPT在提升协议模糊测试工具AFLNet的代码覆盖率方面也取得了显著效果。这表明,利用LLM进行状态机推断不仅能提升网络协议分析的质量,还能增强网络安全防护的能力。本研究为未来网络协议分析与安全领域提供了新的思路和工具。

原作者:论文解读智能体

校对:小椰风

图片

这篇关于【论文速读】| 通过大语言模型从协议实现中推断状态机的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1054236

相关文章

SpringBoot3实现Gzip压缩优化的技术指南

《SpringBoot3实现Gzip压缩优化的技术指南》随着Web应用的用户量和数据量增加,网络带宽和页面加载速度逐渐成为瓶颈,为了减少数据传输量,提高用户体验,我们可以使用Gzip压缩HTTP响应,... 目录1、简述2、配置2.1 添加依赖2.2 配置 Gzip 压缩3、服务端应用4、前端应用4.1 N

SpringBoot实现数据库读写分离的3种方法小结

《SpringBoot实现数据库读写分离的3种方法小结》为了提高系统的读写性能和可用性,读写分离是一种经典的数据库架构模式,在SpringBoot应用中,有多种方式可以实现数据库读写分离,本文将介绍三... 目录一、数据库读写分离概述二、方案一:基于AbstractRoutingDataSource实现动态

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Java枚举类实现Key-Value映射的多种实现方式

《Java枚举类实现Key-Value映射的多种实现方式》在Java开发中,枚举(Enum)是一种特殊的类,本文将详细介绍Java枚举类实现key-value映射的多种方式,有需要的小伙伴可以根据需要... 目录前言一、基础实现方式1.1 为枚举添加属性和构造方法二、http://www.cppcns.co

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

MySQL双主搭建+keepalived高可用的实现

《MySQL双主搭建+keepalived高可用的实现》本文主要介绍了MySQL双主搭建+keepalived高可用的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录一、测试环境准备二、主从搭建1.创建复制用户2.创建复制关系3.开启复制,确认复制是否成功4.同

Java实现文件图片的预览和下载功能

《Java实现文件图片的预览和下载功能》这篇文章主要为大家详细介绍了如何使用Java实现文件图片的预览和下载功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... Java实现文件(图片)的预览和下载 @ApiOperation("访问文件") @GetMapping("

使用Sentinel自定义返回和实现区分来源方式

《使用Sentinel自定义返回和实现区分来源方式》:本文主要介绍使用Sentinel自定义返回和实现区分来源方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Sentinel自定义返回和实现区分来源1. 自定义错误返回2. 实现区分来源总结Sentinel自定

Java实现时间与字符串互相转换详解

《Java实现时间与字符串互相转换详解》这篇文章主要为大家详细介绍了Java中实现时间与字符串互相转换的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、日期格式化为字符串(一)使用预定义格式(二)自定义格式二、字符串解析为日期(一)解析ISO格式字符串(二)解析自定义

opencv图像处理之指纹验证的实现

《opencv图像处理之指纹验证的实现》本文主要介绍了opencv图像处理之指纹验证的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录一、简介二、具体案例实现1. 图像显示函数2. 指纹验证函数3. 主函数4、运行结果三、总结一、