大模型在应用开发安全左移实践

2024-08-21 15:20

本文主要是介绍大模型在应用开发安全左移实践,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.应用开发安全左移势在必行

近年来,应用系统被入侵或敏感信息泄漏类的安全事件时有发生,大部分安全事件的根本原因是应用软件设计或实现中存在安全漏洞。由于软件安全性问题导致各种信息泄密、信息被篡改、网络服务中断的事件频发,给企业和政府的社会形象和经济效益造成难以挽回的损失。这暴露了软件在其生命周期从设计、编码、测试到安全响应等不同阶段的安全管控缺失,以及需求提供者、软件开发者、测试人员、系统用户和运维人员等不同项目干系人的安全能力不足。目前的各种软件开发方法并不能保证生产出安全的软件,解决软件安全问题不是个独立的过程,应贯穿于整个软件开发和维护过程,需要一个系统性的安全解决方案,与软件开发生命周期有机结合进行实施,才能有效减少软件安全漏洞和降低其风险。

为了提升我国软件信息系统安全,《信息安全技术 网络安全等级保护基本要求》GB/T 22239-2019针对第二级系统和第三级系统均提出了应用系统安全检测相关要求。与其事后亡羊补牢不如未雨绸缪,为减少应用系统漏洞带来的攻击威胁和损失,需要开展各项合规检测和安全防护工作,需从软件供应链源头抓起,从立项到下线全生命周期进行安全管理。通过把体系流程、人和工具相结合,在软件开发生命周期中把安全相关的内容提炼成系统性的方法论,提高软件的安全成熟度,从软件源头上解决应用程序的安全问题。应用开发安全左移是一种将安全措施和实践提前到应用开发早期阶段的策略。

传统上,安全往往在应用开发的后期阶段,如测试或部署时才被重点关注。然而,这种方式可能导致发现问题后的修复成本高昂,甚至可能需要对应用架构进行重大修改。应用开发安全左移的主要目标是在开发流程的一开始就将安全纳入考虑,包括需求分析、设计、编码等阶段。其优点包括:

1. 降低成本:早期发现和解决安全问题,避免后期大规模的返工和修复。

2. 提高效率:减少开发周期中的安全阻碍,使开发过程更加顺畅。

3. 增强安全性:从源头设计安全的应用,而不是事后补救。

2.采用大模型助力安全需求左移

大语言模型(Large Language Models,简称LLM)是一种基于深度学习的自然语言处理(NLP)模型,旨在理解和生成自然语言文本。大语言模型被用于文本分类、情感分析、机器翻译等任务。应用系统开发人员由于存在编码安全知识薄弱、组件引用来源管控不严,给应用开发带来潜在风险。

1. 代码漏洞风险

开发人员可能因不了解常见的安全漏洞类型,如 SQL 注入、跨站脚本攻击(XSS)、缓冲区溢出等,而在编写代码时引入安全隐患。

2. 错误的安全配置

在应用的配置环节,如服务器配置、数据库配置等,由于缺乏安全知识,可能设置了不安全的参数,导致应用易受攻击。

3. 忽视数据保护

不了解数据隐私法规和最佳实践,可能导致用户数据的不当收集、存储和传输,引发数据泄露风险。

4. 难以满足安全要求

在面对安全审计和合规检查时,无法提供符合安全标准的开发文档和安全管控代码,导致应用无法通过审核。

为了确保网络系统的安全性和可靠性,各种安全标准规范应运而生。应用系统开发建设同样需要符合众多政策法规、标准制度要求,需要理解融合众多的标准规范,以指导应用系统安全架构设计和信息系统安全保护。开发人员和相关管理人员需要知悉、遵守众多法律法规、标准规范。众多安全标准规范进行对标和融合,有利于指导建设和提升工作效率。传统的安全标准融合方法靠人工将每个标准规范逐条映射到对应的框架,例如COBIT、ISO27001等。然而当前技术方法存在以下问题。

1)由于人工理解不同,对安全需求归类产生差异。

2)由于人工操作局限性,对条款映射出现错误操作。

3)由于条款众多融合条款的相关性、相斥性,难以整体把控。

4)条款和实施措施的映射关系缺乏对照和参考。

针对上述问题,可以采用基于大模型应用开发安全标准规范多标融合方法,旨在整合不同的标准规范,提供统一、准确的指导。通过引入自然语言处理(NLP)和人工智能(AI)技术进行标注和融合,训练自动融合算法,减少人工工作量。大语言模型经过大量文本数据训练的语言模型,由于参数量巨大,这些模型可以更好地捕获文本的语义信息,从而在多种任务上取得更好的效果。大语言模型可以存储更多的词汇和短语,可以更好地理解文本的含义,从而在问答、摘要生成等任务上取得更好的效果。大语言模型在开发安全标规范对标融合方面的应用,体现了其在促进自然语言处理技术、跨学科融合、特定领域应用以及资源高效化等方面的重要作用。大模型的发展得益于计算能力的提升和大规模数据集的可用性。通过增加模型的参数量和层数,大模型能够提高模型的表达能力,并在更广泛的领域中取得出色的性能。将大模型技术用于软件系统安全开发,可以大大提高开发效率,形成行业安全开发标准和知识库。

开发者在日常工作中面临着诸多繁重的开发工作,如撰写业务或功能代码、分析优化代码、识别修复代码安全漏洞、查询学习技术文档等。这些工作不仅耗时多,且很难避免人为产生的疏漏。采用先进AIGC技术和机器学习算法,能够快速准确地完成代码预测补全、图片生成代码、代码翻译、生成接口文档、代码优化、生成单侧、安全漏洞识别及修复等功能,助力开发者高效、流畅编码。利用在烟草行业业务场景下积累的内容安全数据,基于历史敏感词,使用内容生成算法形成特有的检测问题库。同时结合团队在大模型安全领域攻防经验形成的衍生问题库,形成了特有的面向大模型内容安全的检测能力。

3.大模型助力应用安全开发

“安全左移”实践过程中遇到的问题,具体而言主要涉及安全工具和人员技能两大方面。首先,在工具层面,现有代码安全工具在准确性、漏洞成因描述及修复方案适配等方面均存在不足,不能满足安全左移至研发的场景;另一方面,研发人员在安全意识和技能水平方面存在较大差异,初、中级研发人员安全编码能力相对较弱,通常难以脱离安全人员支持来独立修复漏洞。鉴于上述两点,将安全左移理念成功应用于开发者场景的成功案例少之又少。例如,传统的代码安全产品,普遍都没有帮助开发者解决好“快速定位问题代码”的问题,难以将代码与特定开发者相对应。导致开发人员必须在拿到整体代码包的安全检测报告后,在大量问题中筛选出自身负责的部分,再进行修复,这种模式很影响安全响应的效率。在实际的项目过程也发现,很多客户在devsecops的建设方面已经有所成绩,但是devsecops的建立并不意味着能实践好开发安全左移,在devsecops的流程中可能是在上线前设置安全检测卡点,漏洞的发现和修复一般是在系统发布阶段,这并没有降低漏洞的修复成本。当然相对于以往的devops流程,安全性很大的提高,但是距离我们认为的真正的开发安全左移,还有比较大的差距。

图片

如上图所示,海云安公司的开发者安全智能助手D10系统基于大模型技术助力应用安全开发。D10系统如下图所示,分为IDE客户端、SAST(静态应用程序安全测试)&SCA(软件成分分析)检测管理端和LLM服务器三部分。IDE客户端面向开发者,通过对接调用SAST&SCA检测管理端和LLM服务器为开发者提供代码组件安全检测和AI缺陷解释修复等功能。SAST&SCA检测管理端主要面向管理人员,负责统计管理代码项目和代码组件检测等。LLM服务器主要为IDE客户端和SAST&SCA检测管理端提供AI智能技术支持。

图片

通过开发者安全智能助手D10系统,可以帮助开发人员:

  • 代码自动补全:在日常编码中,D10可以通过分析上下文和学习代码模式,提供智能的代码自动补全建议,从而提高开发效率。

  • 解释代码:D10能够解释代码,帮助开发者理解特定代码片段的功能和实现方式,提供更深层次的代码理解支持。

  • 生成代码:通过学习大量的代码库和模式,D10可以生成符合需求的代码片段,加速开发过程,尤其在重复性工作中发挥重要作用。

  • 代码审查:D10能够进行代码审查,提供高质量的建议和反馈,帮助开发者改进代码质量、遵循最佳实践。

  • 自然语言查询:开发者可以使用自然语言查询与D10进行交互,提出问题或请求,以获取相关代码片段、文档或解释,使得开发者更轻松地获取需要的信息。

4.应用开发安全左移成效

将大模型技术运用到应用开发安全,有效的建立融会贯通的安全需求知识库和安全设计知识库指导产品安全建设。同时大模型技术的开发者安全智能助手D10赋能开发人员可提供代码安全保障,降低编码工作门槛,提升编码效率,释放研发生产力。

这篇关于大模型在应用开发安全左移实践的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1093533

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

hdu1394(线段树点更新的应用)

题意:求一个序列经过一定的操作得到的序列的最小逆序数 这题会用到逆序数的一个性质,在0到n-1这些数字组成的乱序排列,将第一个数字A移到最后一位,得到的逆序数为res-a+(n-a-1) 知道上面的知识点后,可以用暴力来解 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#in

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设