本文主要是介绍大数据毕业设计Python+Vue.js机器学习垃圾短信与伪基站可视化分析平台 大数据毕业设计 文本分类 机器学习 深度学习 人工智能 情感分析 大数据毕业设计 计算机毕业设计 知识图谱 NLP,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
博主介绍:✌全网粉丝100W+,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业毕业设计项目实战6年之久,选择我们就是选择放心、选择安心毕业✌
🍅由于篇幅限制,想要获取完整文章或者源码,或者代做,可以给我留言或者找我聊天。🍅
感兴趣的可以先收藏起来,还有大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,希望帮助更多的人 。
文章包含:项目选题 + 项目展示图片 (必看)
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score# 准备数据
# 假设有一些已经标记好的短信数据,包括短信文本和标签(0代表非垃圾短信,1代表垃圾短信)
messages = [['Hi, how are you?', 0],['Congratulations! You have won a prize.', 1],['Get the best deals on our website!', 1],['Meeting at 3pm in the conference room.', 0],['URGENT: Your account has been hacked!', 1]
]# 划分特征和标签
X = [message[0] for message in messages]
y = [message[1] for message in messages]# 特征提取
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(X)# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 构建朴素贝叶斯分类器
model = MultinomialNB()# 训练模型
model.fit(X_train, y_train)# 使用模型进行预测
predictions = model.predict(X_test)# 计算准确率
accuracy = accuracy_score(y_test, predictions)
print("准确率:", accuracy)
本科毕业论文(设计)开题报告
基于恶意短信的伪基站行为可视分析系统
院 别 |
| 专 业 | |
届 别 | 班 级 | ||
学生姓名 | 学 号 |
| |
指导教师 | 职 称 |
教务处制
2020年 12 月
本科毕业论文(设计)开题报告及任务书
论文(设计)题目 | 基于恶意短信的伪基站行为可视分析系统 | ||||||||
学生姓名 | 专业 | 学号 | |||||||
指导教师 | 职 称 | ||||||||
本课题的目的旨在通过软件可视技术,设计一个使用Echarts和D3可视分析库为主体的伪基站可视分析系统。 随着社会经济的发展,人手一部手机已经成为常态。截止到2018年年底 ,中国人均拥有1.3张手机卡,而手机用户高达12亿人。面对如此巨大的手机用户群体,再加上缺乏严格的法律监管,不法分子瞄准时机,在城市人口密集地区部署了大量的伪基站。 伪基站又称之为假基站,利用全球移动通信系统的漏洞,伪装成合法企业的基站,在其中心半径范围内向手机用户发送大量垃圾短信。这些垃圾短信涉及诈骗等违法内容,严重影响了正常的生活秩序。伪基站的非法运营,不仅让合法企业蒙受了一定的损失,更重要的是对手机用户群体造成了严重的困扰,涉及诈骗内容的短信还可能给用户带来相当大的经济损失。 然而面对如此严重的社会公害,当前最有效的应对方式只能通过最传统的治理手段,即用户对当前收到的垃圾短信进行举报或者被骗后进行报案,公安有关部门根据举报内容人工判断是否涉及违法诈骗或者立案处理,再抽调警力赶往事发现场利用伪基站检测仪进行检测。这种做法会远远落后于伪基站的流动速度,且在处理模式上是被动的,不能第一时间发现伪基站的踪迹实施精准打击。 因此,如何快速高效的找到伪基站并实施精准打击成为了社会的热点关注话题。本文基于现有的识别和定位伪基站的技术基础上,设计并实现了一套伪基站可视分析系统(Pseudo Base Station Visual Analysis System),简称为PBSViS。PBSViS通过分析伪基站发出的垃圾短信的时间戳和经纬度信息,结合可视分析研究方法及时掌握伪基站的时空活动特征,并采用可视化大屏方式实时反馈给执法人员,帮助其进行精准打击。 | |||||||||
2.主要研究内容(含论文提纲): 本课题主要开发一套基于恶意短信的伪基站行为可视分析系统,该系统前端部分采用当前最为流行的Vue框架,后端使用Node.js技术,数据库选择MySQL关系型数据库。前端界面主要由折线图、百度AI地图、3D地图以及平行坐标图等图形构成,各个孤立的可视图形可以进行交互式操作。可视图形界面主要使用Echarts,前端通过jQuery中的AJAX方法向后端请求数据,Node后端使用express框架结合路由功能,对前端请求的地址和参数进行解析与响应,并返回数据库中对应的数据。使用者通过对前端界面的交互式操作,可以分析出各类数据间的相互关系,最终得到伪基站可视分析的结果。 论文提纲: 第一章 绪论 1.1 研究背景及意义 1.2 国内外研究现状 1.2.1 恶意短信时空可视化技术研究现状 1.2.2 短信文本聚/分类技术研究现状 1.2.3 可视分析技术研究现状 1.3 文章组织结构 第二章 伪基站可视化基础理论知识 2.1 伪基站工作原理探究 2.1.1 伪基站的概念及工作原理 2.1.2 伪基站的实现方式 2.1.3 伪基站的危害 2.2 伪基站行为模式可视化 2.2.1 伪基站的时空数据 2.2.2 时空数据的展示方法 2.3 本章小结 第三章 基于短信文本内容的分类算法和处理方法 3.1 文本内容分类算法 3.1.1 余弦相似度算法 3.1.2 TF-IDF算法 3.2 基于余弦相似度与TF-IDF算法的改进算法 3.3 伪基站数据格式与处理步骤 3.3.1 数据格式 | |||||||||
3.3.2 数据预处理与清洗 3.3.3 数据分析统计及存储 3.4 基于Python的文本内容分类处理步骤 3.4.1 中文分词与过滤停用词 3.4.2 创建关键词表 3.4.3 垃圾短信文本内容分类 3.5 本章小结 第四章 伪基站可视分析系统实现技术分析 4.1 系统架构简介与分析 4.1.1 基于B/S架构模式的分析 4.1.2 基于Node.js的技术简介 4.2 系统关键技术分析 4.2.1 Vue与Node框架 4.2.2 基于Echarts与D3的可视图形库 4.3 前后端数据交互技术 4.4 数据库设计 4.4.1 E-R图设计 4.4.2 数据库与表结构设计 4.5 本章小结 第五章 伪基站可视系统实现 5.1 系统设计所需环境与工具 5.2 系统部分功能详细设计 5.2.1 基于百度地图的伪基站散点图的实现 5.2.2 基于Echarts的多维交互图形的实现 5.2.3 基于D3的多维概念地图的实现 5.3 系统实现结果与分析 5.3.1 伪基站时空活动规律分析 5.3.2 分类后垃圾短信的时空分布规律 5.3.3 伪基站移动特征分析 5.4 本章小结 结论 参考文献 致谢 | |||||||||
3.完成论文(设计)的条件、方法及措施,包括实验设计、调研计划、资料收集、参考文献等内容: 3.1、条件:在开始本套系统代码编写之前,已经完成过多套可视分析系统,并多次获得过国家级和省级奖项,有较为丰富的开发经验。目前完成了本套系统前后端架构的搭建和大部分数据库表的设计,并查阅了大量的文献资料,从宏观角度对系统的功能进行了规划。 3.2、方法及措施:在开源社区gitee和github中查找优秀案例以及在ChinaVIS官网中下载获奖作品和论文进行参考学习。更加深入的学习Vue框架、Node.js技术以及Echarts第三方可视库知识。制订详细的日程计划表,严格按照计划时间点完成相应的任务。积极与老师以及同学进行问题的探讨和交流,提出更加完整周密的设计思路。 3.3、参考文献: [1]Gennady Andrienko,Natalia Andrienko,Jason Dykes,Sara Irina Fabrikant,Monica Wachowicz. Geovisualization of Dynamics, Movement and Change: Key Issues and Developing Approaches in Visualization Research[J]. Information Visualization,2008,7(3-4). [2]Kehrer Johannes,Piringer Harald,Berger Wolfgang,Gröller M Eduard. A model for structure-based comparison of many categories in small-multiple displays.[J]. IEEE transactions on visualization and computer graphics,2013,19(12). [3]付国庆. 传感器网络时间序列数据计算及可视化研究[D].大连理工大学,2019. [4]黄瑞琪,李小龙,刘开槐,李恒凯.校园Wi-Fi信号测量与空间可视化分析[J].地矿测绘,2020,36(03):19-22. [5]李娜,刘文敏,孟繁瑞,刘岩.电信大数据分析下的时空区域经济可视化应用[J/OL].北京航空航天大学学报:1-12[2020-12-08].1001-5965.2 020.0388. [6]周志光,胡迪欣,刘亚楠,陈伟锋,陶煜波,林海,苏为华.面向空气质量监测数据时空多维属性的可视分析方法[J].计算机辅助设计与图形学学报,2017,29(08):1477-1487. | |||||||||
[7]孙国道,梁荣华,何贤国,蒋莉,于明远.高维时空房地产数据的可视分析[J].计算机辅助设计与图形学学报,2013,25(08):1169-1176. [8]张六,杨晶晶,卢永秋,李韬,黄铭.基于PCA和K-means的移动通信基站下行频谱监测方法[J].中国无线电,2019(08):53-55. [9]Song Q , Ni J , Wang G . A Fast Clustering-Based Feature Subset Selection Algorithm for High-Dimensional Data[J]. IEEE Transactions on Knowledge & Data Engineering, 2013, 25(1):1-14. [10]黄文良,李石坚,刘菊新,徐从富. 大规模垃圾短信实时过滤系统的设计与实现[A]. 中国通信学会.中国通信学会第五届学术年会论文集[C].中国通信学会:中国通信学会,2008:7. [11]关娜. 基于文本分类算法的垃圾短信过滤技术研究[D].电子科技大学,2008. [12]Díaz Blanco, Ignacio, Cuadrado Vega A A , Pérez López, Daniel, et al. Interactive Dimensionality Reduction for Visual Analytics[C]// European Symposium on Artificial Neural Networks. 2014. [13]Kang, Yong-Bin, Haghigh, et al. TaxoFinder: A Graph-Based Approach for Taxonomy Learning[J]. IEEE Transactions on Knowledge & Data Engineering, 2016, 28(2):524-536. [14]Moreland K . A Survey of Visualization Pipelines[J]. IEEE Transactions on Visualization and Computer Graphics, 2012, 19(3). [15]Li Z , Wang W , Wilson C , et al. FBS-Radar: Uncovering Fake Base Stations at Scale in the Wild[C]// Network and Distributed System Security Symposium. 2017. | |||||||||
4.论文(设计)的进程安排: 2020.10.31 - 2020.11.07 毕业论文(设计)下达任务、制定计划 2020.11.08 - 2020.11.18 毕业论文(设计)选题阶段 2020.11.19 - 2020.12.05 毕业论文(设计)文献综述撰写阶段 2020.12.06 - 2020.12.30 毕业论文(设计)开题阶段 2020.12.31 - 2021.01.30 毕业论文(设计)前期调研、一稿撰写阶段 2021.01.31 - 2021.03.14 毕业论文(设计)二稿撰写阶段 2021.03.15 - 2021.03.20 毕业论文(设计)中期检查 2021.03.21 - 2021.04.05 毕业论文(设计)三稿撰写阶段 2021.04.06 - 2021.04.30 毕业论文(设计)论文查重 2021.05.01 - 2021.05.10 毕业论文(设计)评审、评阅和答辩资格审查阶段 2021.05.11 - 2021.05.23 毕业论文(设计)答辩、上报成绩阶段 2021.05.24 - 2021.05.30 毕业论文(设计)自查总结、终期检查阶段 | |||||||||
5.指导教师意见及建议: (指导老师意见及建议需手写) 该生拟针对伪基站的行为轨迹以及垃圾短信进行可视分析,分别从区域分布特征,时间分布特征,短息分类等方面,结合多种可视化技术,开发多视图协同分析系统。课题前期文献调研充分,软件掌握熟练,并且系统开发已有一定进展。达到开题标准。 是否同意开题:是 指导教师签字: 2020 年 12 月 30日 |
本科毕业论文(设计)文献综述
基于恶意短信的伪基站行为可视分析系统
院 别 |
| 专 业 | |
届 别 | 班 级 | ||
学生姓名 | 学 号 |
| |
指导教师 | 职 称 |
教务处制
2020年 12 月
文献综述评分表
学生姓名 班级 学号
文献综述完成时间 2020 年 12 月 5 日
文献综述题目 基于恶意短信的伪基站行为可视分析系统 综述
文献综述中引用文献情况: 文献总数 15 篇,其中: 中文 8 篇,英文 7 篇,其它语种 0 篇,期刊论文 13 篇,教材著作 0 部,其它文献 2 篇。 文献时间跨度 2008 年~ 2020 年 | |||
序号 | 评分内容 | 满分 | 评分 |
1 | 是否全面收集了有关的文献资料 | 15 | |
2 | 是否充分介绍了与本论文内容相关的研究开发历史与现状,有无重大遗漏 | 20 | |
3 | 是否科学地评价已有的学术观点、理论和方法 | 20 | |
4 | 是否在已有成果的基础上阐明本人的观点 | 15 | |
5 | 是否能预示今后可能的发展趋势与研究方向 | 10 | |
6 | 行文是否流畅,综述能力如何 | 20 | |
总 分 | 100 | ||
评语(请根据评分内容进行评定) 本文针对目前国内外伪基站行为轨迹的研究进行了大量的文献搜集和阅读,并在此基础上设计了一套伪基站可视分析系统,该系统通过分析伪基站发出的垃圾短信的时间戳和经纬度信息,结合可视分析研究方法及时掌握伪基站的时空活动特征,并采用可视化大屏方式实时反馈给执法人员,帮助其进行精准打击。 文章行文流畅,并已有部分成果,可继续开发并完成大论文。 指导教师(签名)
年 月 日 |
1前言(或 选题意义及研究目的)
随着社会经济的发展,人手一部手机已经成为常态。截止到2018年年底 ,中国人均拥有1.3张手机卡,而手机用户高达12亿人。面对如此巨大的手机用户群体,再加上缺乏严格的法律监管,不法分子瞄准时机,在城市人口密集地区部署了大量的伪基站。
伪基站又称之为假基站,利用全球移动通信系统的漏洞,伪装成合法企业的基站,在其中心半径范围内向手机用户发送大量垃圾短信。这些垃圾短信涉及诈骗等违法内容,严重影响了正常的生活秩序。伪基站的非法运营,不仅让合法企业蒙受了一定的损失,更重要的是对手机用户群体造成了严重的困扰,涉及诈骗内容的短信还可能给用户带来相当大的经济损失。
然而面对如此严重的社会公害,当前最有效的应对方式只能通过最传统的治理手段,即用户对当前收到的垃圾短信进行举报或者被骗后进行报案,公安有关部门根据举报内容人工判断是否涉及违法诈骗或者立案处理,再抽调警力赶往事发现场利用伪基站检测仪进行检测。这种做法会远远落后于伪基站的流动速度,且在处理模式上是被动的,不能第一时间发现伪基站的踪迹实施精准打击。
因此,如何快速高效的找到伪基站并实施精准打击成为了社会的热点关注话题。本文基于现有的识别和定位伪基站的技术基础上,设计并实现了一套伪基站可视分析系统(Pseudo Base Station Visual Analysis System),简称为PBSVAS。PBSVAS通过分析伪基站发出的垃圾短信的时间戳和经纬度信息,结合可视分析研究方法及时掌握伪基站的时空活动特征,并采用可视化大屏方式实时反馈给执法人员,帮助其进行精准打击。
2国内外研究现状
本文研究的主题是对伪基站发送的恶意短信的行为模式进行可视化析和展示。根据源数据的结构与特性,可以对系统进行三个层次的划分,分别为恶意短信时空可视化技术、短信文本聚/分类技术以及前沿可视分析技术与展示方法。以下将会围绕这三个层次进行详细的阐述与介绍。
2.1 恶意短信时空可视化技术研究现状
近些年来,海内外研究学者在恶意文本内容的时空可视化技术上取得了大量的研究成果。总结Gennady Andrienko等的研究成果[1],可以将数据可视化分析技术的整个过程分解为多个子线程。根据这一概念,将恶意短信文本内容时空可视化技术分为时间数据可视化、空间数据可视化和时空数据可视化三个子线程。
(1)时间数据可视化
Kehrer Johannes等人[2]分析比较了船舶在航行过程中产生的线路数据,按照不同天数和不同时刻进行归类处理并展示。学者付国庆[3]基于传感器产生的时序序列数据,利用可视化技术挖掘数据间的有用信息,能够对海量传感器数据进行很好的管理。
(2)空间数据可视化
黄瑞奇等人[4]构建了一种基于智能校园运行过程中生成的校园WiFi空间数据的无线网络检测和空间可视化方法。李娜等人[5]将电信大数据与体现空间特征的电子地图数据和交通数据相结合,在一定程度上反映了人群的活动特征,为区域经济的发展提供支撑。
(3)时空数据可视化
周志光等[6]对具有时空属性的空气质量数据进行了分析,使用户可以快速分析和解析在不同时空维度下空气质量数据的布局差异。孙国道等人[7]对具有高维空间和时间属性的房地产数据进行了分析,支持用户通过网页的方式对复杂房地产数据进行时空可视化交互操作。
2.2 短信文本聚/分类技术研究现状
针对短信、邮件等中文文本内容进行分类和聚类的研究在近些年来得到快速的发展。中文文本分类方法是管理大规模文本数据最有效的方法之一,众多研究人员投身这一领域进行探索与研发,并取得了大量的研究成果。例如张六等人在对移动通信基站行频谱进行检测的时候使用了一种基于PCA和K-means相结合的文本聚类算法,从文中的实验结果来看,该方法准确检测到频谱中存在的异常情况[8]。除此之外,Song等人提出了一种基于聚类的快速特征选择算法来处理高维度特征集合数据[9]。黄文良等人[10]在文本分类技术的基础上,提出并设计了一套垃圾短信监控与过滤系统,通过训练机器不断提高垃圾短信分类的精准度。学者关娜针对当前垃圾短信分类技术存在的效率低下、造成服务中心网络拥堵的问题进行了改进,采用用户信任度并集成于多层垃圾短信过滤系统中,在很大的程度上提高了垃圾短信过滤的精确度和效率[11]。
2.3 可视分析技术研究现状
可视分析技术是指通过设计可交互式操作的前端图形界面来展示不同类型数据的技术,然后将这些孤立的可视图形集成于系统中,用户在操作该系统时结合自身的认知和经验,可以快速的融入到系统中对数据进行挖掘和探索[12]。人脑之所以对海量的文字数据不敏感,而通过图形却可以清晰直观的发现数据间的联系,是因为人脑经过长期的演变与进化具有高度的泛化和抽象思维能力[13]。
信息可视化是对抽象数据使用计算机支持的、交互的、可视化的表示形式,以增强认知能力[14],侧重于通过可视化图形呈现数据中隐含的信息和规律。Li[15]在2017年就将可视分析技术引入伪基站定位上,通过对数据的处理直观展现了伪基站的分布状态。随后,伪基站可视化领域逐渐得到拓展,分析技术也慢慢得到提高。
3 总结
本文介绍了基于恶意短信的伪基站行为可视分析系统的研究目的和意义。详细阐述了伪基站所发送的恶意短信对社会秩序产生的影响以及对群众可能造成的危害,并对有关部门采用传统方式探测伪基站的缺点进行了分析,并设计了一套PBSVA系统,能够帮助执法人员对伪基站进行精准打击。随后介绍了当前可视化发展的现状以及前沿技术,介绍完基础部分后在进一步的阐述了可视化技术在伪基站领域的应用。本文提出的PBSVA系统使用最新的可视化框架技术,作为创新点,能够将静态的恶意短信数据实时动态的展示在可视化大屏上。
参考文献
[1]Gennady Andrienko,Natalia Andrienko,Jason Dykes,Sara Irina Fabrikant,Monica Wachowicz. Geovisualization of Dynamics, Movement and Change: Key Issues and Developing Approaches in Visualization Research[J]. Information Visualization,2008,7(3-4).
[2]Kehrer Johannes,Piringer Harald,Berger Wolfgang,Gröller M Eduard. A model for structure-based comparison of many categories in small-multiple displays.[J]. IEEE transactions on visualization and computer graphics,2013,19(12).
[3]付国庆. 传感器网络时间序列数据计算及可视化研究[D].大连理工大学,2019.
[4]黄瑞琪,李小龙,刘开槐,李恒凯.校园Wi-Fi信号测量与空间可视化分析[J].地矿测绘,2020,36(03):19-22.
[5]李娜,刘文敏,孟繁瑞,刘岩.电信大数据分析下的时空区域经济可视化应用[J/OL].北京航空航天大学学报:1-12[2020-12-08]..1001-5965.2
020.0388.
[6]周志光,胡迪欣,刘亚楠,陈伟锋,陶煜波,林海,苏为华.面向空气质量监测数据时空多维属性的可视分析方法[J].计算机辅助设计与图形学学报,2017,29(08):1477-1487.
[7]孙国道,梁荣华,何贤国,蒋莉,于明远.高维时空房地产数据的可视分析[J].计算机辅助设计与图形学学报,2013,25(08):1169-1176.
[8]张六,杨晶晶,卢永秋,李韬,黄铭.基于PCA和K-means的移动通信基站下行频谱监测方法[J].中国无线电,2019(08):53-55.
[9]Song Q , Ni J , Wang G . A Fast Clustering-Based Feature Subset Selection Algorithm for High-Dimensional Data[J]. IEEE Transactions on Knowledge & Data Engineering, 2013, 25(1):1-14.
[10]黄文良,李石坚,刘菊新,徐从富. 大规模垃圾短信实时过滤系统的设计与实现[A]. 中国通信学会.中国通信学会第五届学术年会论文集[C].中国通信学会:中国通信学会,2008:7.
[11]关娜. 基于文本分类算法的垃圾短信过滤技术研究[D].电子科技大学,2008.
[12]Díaz Blanco, Ignacio, Cuadrado Vega A A , Pérez López, Daniel, et al. Interactive Dimensionality Reduction for Visual Analytics[C]// European Symposium on Artificial Neural Networks. 2014.
[13]Kang, Yong-Bin, Haghigh, et al. TaxoFinder: A Graph-Based Approach for Taxonomy Learning[J]. IEEE Transactions on Knowledge & Data Engineering, 2016, 28(2):524-536.
[14]Moreland K . A Survey of Visualization Pipelines[J]. IEEE Transactions on Visualization and Computer Graphics, 2012, 19(3).
[15]Li Z , Wang W , Wilson C , et al. FBS-Radar: Uncovering Fake Base Stations at Scale in the Wild[C]// Network and Distributed System Security Symposium. 2017.
这篇关于大数据毕业设计Python+Vue.js机器学习垃圾短信与伪基站可视化分析平台 大数据毕业设计 文本分类 机器学习 深度学习 人工智能 情感分析 大数据毕业设计 计算机毕业设计 知识图谱 NLP的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!