大数据导论考察论文:模拟建立测控全国COVID-19流行趋势的模型

本文主要是介绍大数据导论考察论文:模拟建立测控全国COVID-19流行趋势的模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大数据导论考察论文

  • 一.背景分析
  • 二.数据采集
  • 三.数据分析
    • 3.1理想中的挖掘分析
    • 3.2模拟数据建模分析
  • 四.数据可视化
  • 五.可行性分析
    • 5.1误差分析
    • 5.2模型优点
    • 5.3模型缺点
  • 六.参考文献

话说,大一的文笔好稚嫩啊哈哈哈哈
数学建模部分为校赛作品,和tqs、ly学长共同完成,这是我第一次建模经历,感谢和学长们这一段建模过程,学到了好多

一.背景分析

新型冠状病毒肺炎(简称:COVID-2019)正在全世界范围内传播与扩散,它的爆发和蔓延给我国乃至全球的人民生活和经济发展带来了很大影响。

国家卫生健康委决定将新型冠状病毒感染的肺炎纳入法定传染病乙类管理,采取甲类传染病的预防、控制措施。在这次疫情中,大数据对于政府管理的科学高效和规划预测具有指导和预见作用,协助政府统筹调控。其中,主要表现在以下几个方面:
(1)利用大数据搭建信息管理公共服务平台,有力解决受疫情的民生问题。例如医院的预约挂号平台,排查密切接触患者等;
(2)其他社会资源的整体规划和分配。例如地理大数据平台的疫情实时地图,医疗资源的优化:做好预防措施和医疗资源的储蓄和分配等;
(3)统筹数字化资本,为行业进行针对性分析和调控。例如货币政策:央行降低金融机构负债成本(银行间流动性、政策性利率、专项再贷款等),金融机构对实体企业扩大支持(LPR利率、信贷规模、增信和信用救助、定向利率优惠)。

由于技术等客观因素限制,我就疫情中政府基于大数据应用,第二个方面中,通过分析卫生部门所采取措施对疫情传播所造成的影响,复盘我国抗击COVID-2019取得阶段性胜利的原因。为此,我将初步筛选全国疫情发展态势统计结果,模拟建立测控全国COVID-19流行趋势的模型。

二.数据采集

由于疫情影响较大,因而数据来源非常多,如信息管理系统、网络信息系统、物联网李彤、科学实验系统等。其中,大部分所需数据为网页数据,不但非结构化数据多,而且数据的实时性强。这里,我们可以通过“网页爬虫”的程序来实现网络数据采集。通过网络爬虫程序,我们从SiteURL中抽取目标链接写入URL队列中,并从中读取链接以获得该网页信息。从网页内容中抽取所需属性的内容值,写入数据库的Content中。考虑到疫情中的大数据数据量大,价值密度低的特点,我认为选择宽度优先的遍历策略更为合适。

准确、高质量的数据是大数据产生价值的必要条件。在数据流程处理流程方面,本文数据选用官方权威机构发布的数据,在中后期疫情得到重视并透明化后,数据错误、数据缺失等质量问题较少。同时,考虑到疫情数据更新快的时效性特点,针对本问题,数据应该及时采取每日数据并选用每日同一时间的数据,保证数据的可信性。

权衡数据来源的权威性、数据的规范性、数据的产生时间等衡量标准,本文数据来源为国家卫生健康委员会官方网站(http://www.nhc.gov.cn/),在预处理整理后,得:
在这里插入图片描述
……
在这里插入图片描述

(注:此表为引用2020数学建模校赛附件《全国疫情发展事态统计》)

三.数据分析

3.1理想中的挖掘分析

世界卫生组织健康突发事件和风险评估部主任奥利弗·摩根提出:量化数据工具和机器学习可以提高疫情爆发时期的决策质量。根据他的研究,我认为疫情的爆发可分成三个阶段。在疫情爆发的不同阶段混合使用数据量化工具,可以有效提高决策质量,评估决策效果。
(1)调查阶段。特征是不确定性强,病例数少。作为计算机编程的R语言,适合统计计算和制图。 R有方法处理缺失值和异常值,在疫情初期可以有效地整合信息。
(2)疫情扩大阶段。需要检测新的公共卫生事件的警报,从而控制疫情扩散。使用开源的传染病智能(EIOS)平台,用于数据的处理、分类和组合。机器学习较好的能处理数据丢失的情况,并对疫情传播趋势做出预测。
(3)控制干预阶段。特点是强监控,以及不断优化对疫情的干预措施。通过建模优化干预措施。当疫情爆发的规模和演变存在不确定性时,通过提高对爆发的量化估计的准确性和及时性,提供物资和医疗服务可以优化对于疫情爆发的应对。

3.2模拟数据建模分析

由于技术等客观因素限制,这里通过筛选全国疫情发展态势统计结果,采用了微分建模中传染病模型SEIR模型,并在此基础上增加对自愈的考虑。这个模型用较为合适的解构将数据组织起来,减少数据重复并提供更好的数据共享。数据之间约束条件的使用保证数据之间依赖关系,防止出现不准确、不完整和不一致性的质量问题。

这里把中国在这次新冠疫情中的人群分为五类:S类,E类,I类,W类,R类。在总人口固定为N时,设第t天时五类人群的人数分别为S(t)、E(t)、I(t)、W(t)、R(t)。考虑自愈因素。
S 类,易感者 (Susceptible),指未得病者,但缺乏免疫能力,与感染者接触后容易受到感染;
E 类,暴露者 (Exposed),指接触过感染者,但暂无能力传染给其他人的人,对潜伏期长的传染病适用;
I 类,感病者 (Infectious),指染上传染病的人,可以传播给 S 类成员,将其变为 E 类或 I 类成员;
W类,未隔离者,指无法追踪到的和传染源有直接接触的人。对于优化后的模型来说,病人和可控者皆被完全隔离,使病毒的进一步传播中断。所以,此时的不可控的人中带病毒者将成为社会上的流动病毒;
R 类,康复者 (Recovered),指被隔离或因病愈而具有免疫力的人。如免疫期有限,R 类成员可以重新变为 S 类。

后面公式太多了,直接贴图

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

四.数据可视化

在这里插入图片描述
在这里插入图片描述

五.可行性分析

5.1误差分析

a.新冠肺炎的潜伏期是在2天~14天之间(甚至有极少数患者会出现24天潜伏期),初期症状和一般病毒感染引起的感冒有相似,以及疫情初期检测能力有限,导致有关部门调查统计的数据有能不太准确,有一定的“延迟”;
b.不可控的的疑似病例数据缺乏;
c.传染病模型采用了了几个关键的数据,进行概全的目的,对于总的若干因变量会带来间歇性误差;
d.医疗水平提高,对于疫情治愈能力提高。

5.2模型优点

a.本模型在经典的传染病模型SIR上加入了潜伏期的考虑和自愈情况的分析,在比较封闭的地区,本模型可以大致模拟出疫情的大致走向,只要参数准确,就可以得出与真实数据相差无几的曲线。在大体上本模型模拟了这次疫情的一个人群结构分布;
b.在因变量的筛选时注重几个方面的选择,这样能过具有普遍性和依据性,在最后推理的时候有多方面的结合和深入,并且比较尝试不同取值,对应参数科学,而且拟合性好。

5.3模型缺点

a.本模型是将一个地区作为一个整体,但是没有考虑人口分散和人口聚集的影响,也没有分析人口流动和无症状感染;
b.因为人的反馈很强,无法做到对于人们警戒的变化而变化对于一些情况特殊的地区模拟起来难度大,对于参数的估计难以准确;
c.有些参数难以得到数据。或者数据不够准确。无法估计长时间的疫情情况。

六.参考文献

[1] 王议锋,田 一,杨 倩. 非典数学模型的建立与分析[J].工程数学学报, 2003(:20.7).
[2] 李 贝,徐海臻,郭佳佳. 考虑自愈的SARS的传播模型[J].工程数学学报, 2003(:20.7).
[3] 周丹文 .MATLAB中基于GARCH模型[D].南京审计大学,2019.

这篇关于大数据导论考察论文:模拟建立测控全国COVID-19流行趋势的模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/647859

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

usaco 1.2 Transformations(模拟)

我的做法就是一个一个情况枚举出来 注意计算公式: ( 变换后的矩阵记为C) 顺时针旋转90°:C[i] [j]=A[n-j-1] [i] (旋转180°和270° 可以多转几个九十度来推) 对称:C[i] [n-j-1]=A[i] [j] 代码有点长 。。。 /*ID: who jayLANG: C++TASK: transform*/#include<