【全部更新完毕】2024全国大学生数据统计与分析竞赛B题思路代码文章教学数学建模-电信银行卡诈骗的数据分析

本文主要是介绍【全部更新完毕】2024全国大学生数据统计与分析竞赛B题思路代码文章教学数学建模-电信银行卡诈骗的数据分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

电信银行卡诈骗的数据分析

摘要

电信银行卡诈骗是当前社会中严重的犯罪问题,分析电信银行卡交易数据,找出高风险交易特征,建立预测模型,将有助于公安部门和金融机构更好地防范诈骗行为,保障用户的财产安全。

针对问题一,为了解电信银行卡交易数据中的诈骗情况,我们进行了详细的数据分析。首先,通过统计交易数据中发生诈骗和未发生诈骗的次数,绘制了比统计并绘制了线上和线下诈骗数量的柱状图,明确了两者的对比情况。这些分析结果不仅揭示了电信银行卡诈骗的基本例的扇形图,直观展示了诈骗的普遍程度。其次,筛选出发生诈骗的交易记录情况,还为进一步研究和制定防范措施提供了数据支持。

在问题二中,通过对电信银行卡交易数据的详细分析,我们比较了使用银行卡在设备上进行转账交易与使用银行卡pin号码进行转账交易两种情况下的诈骗率。结果显示,使用银行卡在设备上进行转账交易的诈骗率是否高于未使用情况下的诈骗率可以揭示这种交易方式的风险程度。此外,使用pin号码的情况下,若诈骗率低于未使用情况,则说明使用pin号码有助于减少被骗概率。

在问题三中,通过对电信银行卡交易数据的详细分析,我们发现“是否是线上的银行卡转账交易”和“银行卡转账交易是否发生在同一银行”与电信诈骗存在显著关联。相关性矩阵显示,这些指标与诈骗发生有较强的相关性,提示线上交易和同一银行交易在诈骗行为中具有重要影响。卡方检验结果进一步确认了这些关联,为防范电信诈骗提供了重要依据。

在问题四中,通过对电信银行卡交易数据的详细分析,我们选择了包括交易距离、金额比值、是否在同一银行、是否使用设备和pin号码进行交易、是否线上交易等特征,使用逻辑回归模型建立了电信诈骗预测模型。经过数据标准化和训练后,模型在测试集上的预测准确率较高达到96%。分析结果表明,线上交易是电信诈骗的重要影响因素。

关键词:相关性分析、电信诈骗、逻辑回归模型、卡方检验、相关性矩阵

目录

摘要

一、问题重述

1.1问题背景

1.2要解决的问题

二、问题分析

2.1任务一的分析

2.2任务二的分析

2.3任务三的分析

三、问题假设

四、模型原理

4.1ARIMA模型

4.2 xgboost模型

4.3 DBSCAN模型

4.4自行替换kmeans/简单指数平滑等的模型介绍

五、模型建立与求解

5.1问题一建模与求解

5.2问题二建模与求解

5.3问题三建模与求解

六、模型评价与推广

6.1模型的评价

6.1.1模型缺点

6.1.2模型缺点

6.2模型推广

七、参考文献

附录【自行删减】

5.1 问题一建模与求解

问题一主要包含两个任务,一是绘制“有无发生电信银行卡诈骗”比例的扇形图;二是绘制发生电信银行卡诈骗的案例中,“线上”和“线下”发生电信诈骗数量的柱状图.对于任务一,首先需要进行数据的统计分析,包含如下几个步骤:

1.读取数据:从提供的CSV文件中读取电信银行卡交易数据,包含诈骗与否的标识。

2.计算比例:通过统计每种情况(发生诈骗和未发生诈骗)的次数,计算其比例。

3.绘制图表:使用扇形图(饼图)展示比例分布,直观呈现数据集中诈骗和非诈骗交易的比例。

首先使用pandas 库读取数据文件,确保数据格式正确且无缺失值。获取到的部分数据如上所示,由于后面的问题都需要使用到该数据文件,之后内容中的读取部分不在重复说明。

根据读取到的数据,我们对Fraud 列进行 value_counts() 统计,得到发生诈骗和未发生诈骗的次数。随后进一步计算比例:通过统计的次数,计算每种情况的比例,分别表示为“未发生诈骗”和“发生诈骗”。在得到了比例之后,可以进一步绘制扇形图:使用 matplotlib 库的 pie 函数,绘制扇形图,标注每部分的百分比及标签。结果展示如下。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

本文所建立模型具有以下优点 :

1.模型的整体表现较为优秀,准确率高达96%,意味着在大多数情况下能够正确判断交易是否为诈骗。具体到类别性能,模型在非诈骗类交易的识别上表现尤为突出,精确率为0.96,召回率为0.99,F1-score为0.98,显示了模型在辨识正常交易方面的高效性和可靠性。

6.1.2模型缺点

本文所建立模型仍有以下不足:

1.需要大量的数据支持,并且对数据的质量有较高要求。噪声和数据缺失可能会影响周期的准确识别。

2.尽管诈骗类的精确率相对较高(0.89),但召回率只有0.60,导致F1-score为0.72。这表明虽然模型能够准确识别出部分诈骗交易,但还有相当比例的诈骗交易未能被检测出来,存在较多的假负类错误(实际为诈骗但预测为非诈骗)。

6.1模型推广

数据增强和特征工程:通过增加训练数据的多样性或引入更多相关特征来增强模型的学习能力和泛化能力。特别是对诈骗类交易的数据进行增强,以改善模型在该类别上的表现。

1.高级模型探索:考虑使用更复杂的机器学习算法如随机森林、梯度提升机(GBM)或深度学习模型,这些模型可能在处理复杂模式和大数据集时表现更好。

2.模型集成方法:通过集成多个模型来提高预测准确性和稳定性,尤其是在处理不平衡数据时,集成学习能有效提高少数类的识别率。

3.持续监控和模型更新:定期评估模型的表现,并根据最新的交易数据和诈骗手段更新模型,确保模型的实时性和准确性。指数平滑模型可以广泛应用于零售、制造业和供应链管理中的需求预测。它特别适合于需求数据具有明显趋势或季节性模式的场合。为了提高模型的适应性和鲁棒性,建议结合异常值检测和修正方法,并定期更新模型参数以适应需求模式的变化。

通过这些策略,不仅可以提升模型在现有数据集上的表现,还能增强其对新型诈骗手段的适应能力和响应速度,从而在实际应用中更有效地帮助银行和监管机构预防和打击电信银行卡诈骗行为。

### 2024全国大学生数据统计与分析
### https://docs.qq.com/doc/DVW5uSVBxbU5aQnla

这篇关于【全部更新完毕】2024全国大学生数据统计与分析竞赛B题思路代码文章教学数学建模-电信银行卡诈骗的数据分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1042329

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hdu1496(用hash思想统计数目)

作为一个刚学hash的孩子,感觉这道题目很不错,灵活的运用的数组的下标。 解题步骤:如果用常规方法解,那么时间复杂度为O(n^4),肯定会超时,然后参考了网上的解题方法,将等式分成两个部分,a*x1^2+b*x2^2和c*x3^2+d*x4^2, 各自作为数组的下标,如果两部分相加为0,则满足等式; 代码如下: #include<iostream>#include<algorithm

菲律宾诈骗,请各位华人朋友警惕各类诈骗。

骗子招聘类型:程序开发、客服、财务、销售总管、打字员等 如果有人用高薪、好的工作环境来你出国工作。要小心注意!因为这些骗子是成群结伴的! 只要你进入一个菲律宾的群,不管什么类型的群都有这些骗子团伙。基本上是他们控制的! 天天在群里有工作的信息,工作信息都是非常诱惑人的。例如招“打字员”、“客服”、“程序员”……各种信息都有。只要你提交简历了,他会根据你的简历判断你这个人如何。所谓的心理战嘛!

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技