缺陷定位论文阅读:[Dongsun Kim] [TSE在投] DC: A Divide-and-Conquer Approach to IR-based Bug Localization

本文主要是介绍缺陷定位论文阅读:[Dongsun Kim] [TSE在投] DC: A Divide-and-Conquer Approach to IR-based Bug Localization,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 前言
    • 0 阅读方案
    • 1. D&C: A Divide-and-Conquer Approach to IR-based Bug Localization
      • 1.1 基本信息
      • 1.2 文章内容
      • 1.3 几个QA
      • 1.4 感想

前言

每天都得阅读一定数量的论文。
在此阅读:
1)D&C: A Divide-and-Conquer Approach to IR-based Bug Localization
2)算了,还是尽量一篇博客一篇论文阅读把。

0 阅读方案

因为很多,论文很多,所以只能求快,不能求每一篇都精度,不可能的。
所以见机行事,不要“恋战”。

1. D&C: A Divide-and-Conquer Approach to IR-based Bug Localization

1.1 基本信息

下载地址:在arxiv上就能下。

目测这篇文章是要投TSE期刊的,先发在了arxiv上。

作者有:Dongsun Kim 这位也是学术大牛了。
其主页:http://www.darkrsw.net/

在这里插入图片描述

在卢森堡大学。

1.2 文章内容

先介绍IR技术,引出FL缺陷定位:

Many automated tasks in software maintenance rely on information retrieval (IR) techniques to identify specific information within unstructured data. Bug localization is such a typical task, where text in a bug report is analyzed to identify file locations in the source code that can be associated to the reported bug.

指出问题:

Unfortunately, despite the promising results reported in the literature, the performance offered by IR-based bug localization tools is still not significant for large adoption.

给出自己认为的原因:

We argue that one reason could be the attempt by the community to build a “one-size-fits-all” approach for bug localization, without fully addressing the differences of available information that may exist among the bug reports and across the project source code files.

自己的工作:

In this paper, we first extensively study the performance of state-of-the-art bug localization tools, specifically focusing on investigating the query formulation (i.e., which bug report features should be compared against which features of source code files) and its importance with respect to the localization performance.

工作2:

Building on insights from this study, we propose a new learning approach where multiple classifier models are trained on clear-cut sets of bug-location pairs. Concretely, we apply a gradient boosting supervised learning approach to various sets of bug reports whose localizations appear to be successful with specific types of features.

工作3:(工具)

The training scenario builds on our findings that the various state-of-the-art localization tools (hence the associated similarity features that they leverage) can be highly performant for specific sets of bug reports. We implement D&C, a multi-classifier approach, which computes appropriate weights that should be assigned to the similarity measurements between pairs of information token types (the bug report and source code).

大意是:(我的理解、翻译)
现在的IR技术被广泛使用在软件维护领域中,来挖掘特定信息。缺陷定位就是这样的典型方向,IR可以通过分析bug reports来确定可能和reported bug相关联的文件地点(file location)。
但是呢,IR的缺陷定位技术并没有广泛应用。我们认为其原因在于:整个community的人都想做一个one-size-fits-all的缺陷定位技术,却根本没有强调bug reports之间存在的区别,和各个project source code files之间存在的区别。

所以呢,本文先广泛研究当前最先进的(state-of-the-art)缺陷定位工具,专门关注调查query formulation以及其在定位性能上的重要性。在empirical study基础上,我们开发了新的learning approach,即从明确分割的bug-location pairs中训练处多个分类模型。具体的,我们对各种bug reports集合(其定位在特定类型的feature下能够成功)应用了梯度增加监督学习方法。这个训练场景是基于我们的finding的(即:各种定位工具对特定集合的bug reports是有效的)。我们实现了D&C,一个多分类方法,来计算应该给(pairs of information token types之间)相似度度量分配的合适的权重。

1.3 几个QA

1)问:都调研了什么定位工具?dataset又是什么?
答:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
2)问:是不是一个当前IR定位工具的combination?
答:如下图,差不多是这个意思,但是不全是,还是有点出入的,具体涉及 IR中的feature,similarity这类术语,我就不多看了。
在这里插入图片描述

1.4 感想

1)开始迷茫,很多东西确实被做了,但是也有很多东西确实能做,总而言之,还是有点迷茫的。
自己之前想到的,别人已经想到并且实现了。
还是得积累想法。
2)写作套路还是很固定的,什么unfortunately啦,什么despite啦,都是千篇一律罢了。
3)行行出状元,我认为想法还是很容易想出来的,SFL领域有SFL领域的挑战,这个IR FL 领域也有其自己的挑战,只要钻进去了,还是有机会的。
4)这个想法和我们当时想的特殊情况特殊修复,针对性修复的方法是有共性的。但是我在实现上很有困难。
5)自己想点还是太难了,很多技术我根本没接触,也没应用过,这对我来说很难想出解决方案:(但是未必不行。这就是人之矛盾)

Building on insights from this study, we propose a new learning approach where multiple classifier models are trained on clear-cut sets of bug-location pairs. Concretely, we apply a gradient boosting supervised learning approach to various sets of bug reports whose localizations appear to be successful with specific types of features.

6)又是combination,感觉挺难受的。
7)我一开始以为这篇论文非常不稳,工作量确实很足,但是总感觉创新上还差了点,但是看了文章中的参考文献:

[19] Lee, J., Kim, D., Bissyande, T.F., Jung, W., Le Traon, Y.: Bench4bl: ´ reproducibility study on the performance of IR-based bug localization. In: Proceedings of the 27th ACM SIGSOFT International Symposium on Software Testing and Analysis, pp. 61–72. ACM (2018)

一脉相承。一直在做的,而且18年还发了ISSTA。这,我感觉作者应该是很有把握了。

这篇关于缺陷定位论文阅读:[Dongsun Kim] [TSE在投] DC: A Divide-and-Conquer Approach to IR-based Bug Localization的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/631195

相关文章

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin