SCA软件成分同源分析-代码匹配技术

2024-03-01 22:12

本文主要是介绍SCA软件成分同源分析-代码匹配技术,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

被检项目源代码的识别在多个语言解析器的支持下工作,根据不同匹配算法,可以计算与特征值索引数据库的匹配情况。针对强匹配算法,源代码的特征值必须与索引数据库的特征值一致,才可认为是该开源组件;针对非强匹配算法,比如混淆后的代码,则需要计算特征值之间的相似度,根据相似度的阈值确定是否是该开源组件。输入是项目,输出的检测结果中给出具有与该项目相同或相似的项目、包、文件、类及函数。下面对分析流程进行简要说明,如下图所示:

图  代码实体识别匹配

(1)将输入的项目首先使用反混淆技术进行预处理,然后按目录结构划分为多个包,每个包下有不同的文件;

(2)计算文件的文本摘要,并根据该摘要在数据库中匹配相同的文件。如果包下面所有的文件匹配成功,则该目录得到匹配。如果所有目录得到匹配,则项目找到对应的匹配,程序结束;

(3)否则,将未得到匹配的文件进行解析,得到函数级别的标识集合,并依次提取函数标识特征、语法特征和语义特征。如果基于相应特征在数据库中匹配到相同的文件,则建立类级和文件级多特征模型。否则,提取函数的下一层特征并进行匹配;

(4)依据类级和文件级多特征模型,在库中进行匹配,结合匹配结果形成包级多特征模型;

(5)根据包级多特征模型计算整个项目与库中项目、包、文件、类以及函数之间的相似性,得到项目的多特征模型,并报告检测结果。

基于特征库的匹配算法,则是从文本、标识、语法、语义四个方面进行匹配,称为指纹匹配算法。在每个方面存在三种匹配方式,第一种是依据摘要的匹配方式;第二种是依据特征向量或特征向量哈希值的匹配方式;第三种是针对标识袋(Bag-of-tokens)的部分索引的匹配方式。

使用的匹配算法分为四个层次。

(1)基于摘要的识别匹配算法

对于摘要特征,匹配算法可以精确匹配到相同摘要值的函数、类、文件以及包含该函数、类、文件的包和项目。

(2)基于词法的识别匹配算法

对于词法分析生成的标识袋特征,匹配算法可以利用其部分索引快速定位相似的函数、类、文件以及包含该函数、类、文件的包和项目。

(3)基于语法的识别匹配算法

对于语法分析生成抽象语法树的特征向量或其哈希值特征,匹配算法可以近似定位目标函数、类以及包含该函数、类的文件、包和项目。

(4)基于语义的识别匹配算法

对于语义分析生成程序依赖图或值依赖图的特征向量或其哈希值特征,匹配算法可以近似定位目标函数、类以及包含该函数、类的文件、包和项目。

(结束)

这篇关于SCA软件成分同源分析-代码匹配技术的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/763990

相关文章

Java调用DeepSeek API的最佳实践及详细代码示例

《Java调用DeepSeekAPI的最佳实践及详细代码示例》:本文主要介绍如何使用Java调用DeepSeekAPI,包括获取API密钥、添加HTTP客户端依赖、创建HTTP请求、处理响应、... 目录1. 获取API密钥2. 添加HTTP客户端依赖3. 创建HTTP请求4. 处理响应5. 错误处理6.

Springboot中分析SQL性能的两种方式详解

《Springboot中分析SQL性能的两种方式详解》文章介绍了SQL性能分析的两种方式:MyBatis-Plus性能分析插件和p6spy框架,MyBatis-Plus插件配置简单,适用于开发和测试环... 目录SQL性能分析的两种方式:功能介绍实现方式:实现步骤:SQL性能分析的两种方式:功能介绍记录

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

Python中顺序结构和循环结构示例代码

《Python中顺序结构和循环结构示例代码》:本文主要介绍Python中的条件语句和循环语句,条件语句用于根据条件执行不同的代码块,循环语句用于重复执行一段代码,文章还详细说明了range函数的使... 目录一、条件语句(1)条件语句的定义(2)条件语句的语法(a)单分支 if(b)双分支 if-else(

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

MySQL数据库函数之JSON_EXTRACT示例代码

《MySQL数据库函数之JSON_EXTRACT示例代码》:本文主要介绍MySQL数据库函数之JSON_EXTRACT的相关资料,JSON_EXTRACT()函数用于从JSON文档中提取值,支持对... 目录前言基本语法路径表达式示例示例 1: 提取简单值示例 2: 提取嵌套值示例 3: 提取数组中的值注意

CSS3中使用flex和grid实现等高元素布局的示例代码

《CSS3中使用flex和grid实现等高元素布局的示例代码》:本文主要介绍了使用CSS3中的Flexbox和Grid布局实现等高元素布局的方法,通过简单的两列实现、每行放置3列以及全部代码的展示,展示了这两种布局方式的实现细节和效果,详细内容请阅读本文,希望能对你有所帮助... 过往的实现方法是使用浮动加

JAVA调用Deepseek的api完成基本对话简单代码示例

《JAVA调用Deepseek的api完成基本对话简单代码示例》:本文主要介绍JAVA调用Deepseek的api完成基本对话的相关资料,文中详细讲解了如何获取DeepSeekAPI密钥、添加H... 获取API密钥首先,从DeepSeek平台获取API密钥,用于身份验证。添加HTTP客户端依赖使用Jav

Java实现状态模式的示例代码

《Java实现状态模式的示例代码》状态模式是一种行为型设计模式,允许对象根据其内部状态改变行为,本文主要介绍了Java实现状态模式的示例代码,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来... 目录一、简介1、定义2、状态模式的结构二、Java实现案例1、电灯开关状态案例2、番茄工作法状态案例

nginx-rtmp-module模块实现视频点播的示例代码

《nginx-rtmp-module模块实现视频点播的示例代码》本文主要介绍了nginx-rtmp-module模块实现视频点播,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习... 目录预置条件Nginx点播基本配置点播远程文件指定多个播放位置参考预置条件配置点播服务器 192.