新型肺炎确诊人数趋势拟合,兼谈数值优化方法

2023-10-11 07:58

本文主要是介绍新型肺炎确诊人数趋势拟合,兼谈数值优化方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

更多专业的人工智能相关文章,微信搜索  : robot-learner , 或扫码

根据各大新闻媒体的报道,从2019年12月8日的第一起报道算起,截至2020年1月30日的新型肺炎累计确诊人数大概8000人。下图反映了每日累计确诊数量变化情况,和指数模型拟合的结果:

 

可以看出,疾病传播处于上升期,且呈明显的指数上升趋势。上图中的指数模型为下列形式:

 

 

上式中,x 为每日天数,2019/12/9号为第0天; y为每日累计确诊人数; 模型参数有两个:N0 为第0天的确诊人数; a为每日增长率。 这里我们假设人数是连续的,可以为小数。通过数值优化的方式,我们找到目前最佳的参数为:

  

                                                   

 

这意味着在目前疾病传播过程中,每日新增确诊39%左右的人数。 另一方面,根据指数模型,在第26天左右,确诊人数为1个人。 这个当然不是真正的数字,但是这个时间的正好是2020年1月初,和开始出现较多确诊人数报道时间差不多。

 

上面的指数模型非常简单,事实上利用python中的scipy包,几行简单的代码便可以得到结果。但是背后的优化原理是有意义和通用性的。

 

我们可以分为下面几个步骤来理解如何通过数值优化的方式来得到上述结果:

 

  1. 最小二乘法的来源

 

首先如果要获得上面所诉的参数,我们可以利用最小二乘法(或最小平方和)的方法。最小二乘法的原理非常直观,符合大家通常的直觉。我们在前面的“线性回归算法原理”文章中涉及过这个解释。

 

假设我们有一系列测量的x和y值: (x1,y1),  (x2,y2)… (xn, yn)  n个数据点。这些测量值在我们疾病传播问题中可以是每天的天数 (x)和每天的累计确诊人数 (y)。另一方面我们有关于y测量值的一个理论公式y= f(x;θ) ,而公式中的参数θ可以是一个参数也可以是多个参数,并且这些参数正是我们要通过优化方法找到的目标值。

 

可以想象,如果我们的理论公式准确, 每天的实际测量数据 y 和通过理论公式计算出的理论值f(x) 应该非常一致,他们的差别应当趋近零。基于这个原则,最小二乘法就是要找到最佳的参数来使得下面的求和公式最小化:

换句话说,我们需要找到参数 θ 使得上面的平方和最小。

 

 

虽然最小二乘法符合人们的直觉,但是它是有统计理论根据的。这是基于统计中最大似然法估计参数得到的。只要能够找到事件发生的概率形式,最大似然拟合方法便可以给出没有偏差的参数估计结果。怎么得到疾病发生的概率形式呢? 只需要做一个简单的假设即可: 每天测量得到的确诊人数和真实的确诊人数的差别是一个均值为0的正态分布函数。可以用下式表达:

 

 

其中ε是每日确证人数y的固有误差,是一个平均值为0,方差为σ2的正态分布。换一句话说,y也符合正态随机分布函数,并且平均值为围绕理论值f(x)波动,方差为σ2。换句话说,y满足下式概率分布:

 

 

正太分布的形式在实际生活中非常普遍,比如人的身高。它必然是一个围绕着一个平均值波动的分布。下图是某地男性身高分布图,呈正太分布:

 

上图显示该地男性身高均值为172cm, 标准差 δ为5cm左右。 基于这两个数字,我们可以算出,该地随机找出一名男性,身高在172cm和177cm之间概率为34.1%。

 

有了y的概率分布函数,为了得到参数的最佳优化值,我们可以用统计学中的最大似然拟合方法,即最佳的参数就是可以把似然值最大化的参数。把n个x和y的训练数据的值带入似然值的定义,可以得到似然值的公式如下:

 

因为连乘的方式不利于数学运算,可以把上式取Log以后再进行运算,并且因为Log函数为单调函数,变换后的形式不会影响我们对最大值所对应的参数判断。

 

从上式可以看出,因为为不变的常数,寻找似然公式LL(θ)最大值等价于寻找下式的最小值:

到了这一步,可以看出最小二乘法的形式:测量值和预测值差别的平方和最小化形式。

 

 

  1. 信赖域(trust region)优化原理

 

 

上面讲到的最小二乘法公式给了我们要优化(或者最小化)的目标函数。但是如何寻找最佳参数使得上面公式最小化仍然不清楚。

 

对微积分熟悉的读者肯定知道,要找到一个函数的极值,满足一定条件下,函数的一阶导数为零时候,对应的参数即为最佳值。但是这个方法在实际问题中通常难以应用,因为很多实际问题都没有解析解。因此我们需要通过数值的方法来搜索最佳值。

 

那可以想到的最简单的方法就是grid search,如果我们把参数空间分成许多很细的格子。沿着每个格子依次计算当前函数的值,直到遇到函数的极值点为止。但这个方法的问题在于搜索空间太大,实际问题中不能有效应用。

 

因此通常有效的搜索策略有两种:一种叫线搜索 (line search),另一种叫做信赖域(trust region)。机器学习很多算法中遇到的梯度下降算法其实就是一种线搜索。 梯度下降优化的原理我们在后面的文章会介绍。这里我们先介绍信赖域的优化方法。

 

线搜索和信赖域的比较可以用这样一个例子来说明。我们站在北京西单的位置,但是想要去天安门(注:天安门在西单东边3km左右)。线搜索的策略就是,我们首先可能沿着北边寻找。走了一段距离发现不对,可能离天安门越来越远。于是调整方向,接着沿着东南方向寻找,最终找到天安门。 而信赖域的策略是这样:我们首先确定一个半径,比如我们肯定天门肯定在6km范围。我们在半径6km的距离内仔细寻找,结果可能发现走过了头,找到了更东边的王府井。于是重新调整半径为4km,最终找到了天安门。

 

 

信赖域优化方法的核心问题在于用一个二次的方程去近似当前搜索参数所在的位置,这样一个二次方程便构成了一个信赖域用来寻找当前的最佳参数所在位置。当然随着参数位置的搜索移动,这个二次方程的范围不断通过反馈动态的调整。

 

具体来说,参数待优化的函数在第k次迭代中f(x;θ) 可以用泰勒函数二阶形式展开,从而用二次项来近似原函数:

 

上式中mk就是二次函数用来近似 第k次迭代时候的原函数,从而把原函数的优化转化为更加简单的二次方程,从而迭代搜索最佳参数解。

这篇关于新型肺炎确诊人数趋势拟合,兼谈数值优化方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/186641

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

浅谈主机加固,六种有效的主机加固方法

在数字化时代,数据的价值不言而喻,但随之而来的安全威胁也日益严峻。从勒索病毒到内部泄露,企业的数据安全面临着前所未有的挑战。为了应对这些挑战,一种全新的主机加固解决方案应运而生。 MCK主机加固解决方案,采用先进的安全容器中间件技术,构建起一套内核级的纵深立体防护体系。这一体系突破了传统安全防护的局限,即使在管理员权限被恶意利用的情况下,也能确保服务器的安全稳定运行。 普适主机加固措施:

webm怎么转换成mp4?这几种方法超多人在用!

webm怎么转换成mp4?WebM作为一种新兴的视频编码格式,近年来逐渐进入大众视野,其背后承载着诸多优势,但同时也伴随着不容忽视的局限性,首要挑战在于其兼容性边界,尽管WebM已广泛适应于众多网站与软件平台,但在特定应用环境或老旧设备上,其兼容难题依旧凸显,为用户体验带来不便,再者,WebM格式的非普适性也体现在编辑流程上,由于它并非行业内的通用标准,编辑过程中可能会遭遇格式不兼容的障碍,导致操

MySQL高性能优化规范

前言:      笔者最近上班途中突然想丰富下自己的数据库优化技能。于是在查阅了多篇文章后,总结出了这篇! 数据库命令规范 所有数据库对象名称必须使用小写字母并用下划线分割 所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来) 数据库对象的命名要能做到见名识意,并且最后不要超过32个字符 临时库表必须以tmp_为前缀并以日期为后缀,备份

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者