数学建模-最优包衣厚度终点判别法-二(K-Means聚类)

2024-04-10 16:52

本文主要是介绍数学建模-最优包衣厚度终点判别法-二(K-Means聚类),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

💞💞 前言
hello hello~ ,这里是viperrrrrrr~💖💖 ,欢迎大家点赞🥳🥳关注💥💥收藏🌹🌹🌹
💥个人主页:viperrrrrrr的博客
💥 欢迎学习数学建模算法、大数据、前端等知识,让我们一起向目标进发!

基于近红外光谱的肠溶片最优包衣厚度终点判别法

       包衣是将片剂的外表面均匀地包裹上一层衣膜的过程,旨在控制药物在胃肠道中的释放部位和速度,遮盖苦味或不良气味,防潮、避光,改善外观等。然而,包衣膜太薄或太厚都不利于药效,并且包衣终点的判断方法目前存在一定的难度。近红外光谱技术(NIRS)是一种高效、无需试剂、无污染的分析方法,通过近红外光谱仪、化学计量学软件和应用模型,能快速、简便地实现多组分检测。为实现包衣终点的准确判断,对数据进行分析并完成以下问题:

问题一:对药品在不同包衣时间段包衣片剂的近红外光谱进行特征峰提取,选择具有有效信息的波长片段,即波长选择。

问题二:分析药品包衣厚度分类规律,建立合适的模型对药品包衣不同厚度进行划分,给出方法及结果,并进行灵敏度分析。

问题三:对于不同的包衣厚度,通过建立模型分析包衣之间的关联性,判别出最优的包衣厚度。

我们本次主要解决问题二。

        对肠溶片包衣厚度进行分类,进一步探究包衣厚度的分类规律,分析其分类标准。包衣技术要求对药片进行多次包衣和对包衣终点并没有明确指标,本问题通过在提取的有效特征峰基础上,根据聚类汇总分析各聚类类别的频数:此步骤是对第一步的补充,旨在了解每个聚类中样本的数量和分布。这有助于更好地理解每个聚类的特征和代表性。便于问题三对肠溶片包衣终点判别作为数据基础。

        针对问题二,本文通过使用聚类算法(K-Means),通过比较样本与聚类中心的距离,了解样本与该聚类的相似性或者距离程度。我们将metrics库引入python得到轮廓系数进一步确定K值的准确性。在随着聚类数目的增加,聚类内部的误差会减小,但是减小的速度会逐渐变慢,直到达到一个“肘部”点。在得到较为精确的K值后在SPSS中进行K-Means聚类分析,最终得到肠溶片的分析结果。

        聚类中心是聚类算法中的重要概念,代表了该聚类的主要特征和中心思想。聚类中心坐标可以用于分析各样本与中心点的距离,我们通过比较样本与聚类中心的距离,可以了解样本与该聚类的相似性或距离程度[3]

        将metrics库引入python得到轮廓系数进一步确定K值的准确性。在随着聚类数目的增加,聚类内部的误差会逐渐减小,但是减小的速度会逐渐变慢,直到达到一个“肘部”点。

通过肘部法则SSE计算误差平方和公式如下:

(2)

肘部的轮廓系数计算公式如下:

(3)

据图4可得,聚类中心个数为3时即K=3时聚类分析模型性能达到最佳。

图4 聚类中心个数

确定聚类中心个数后,进行K-means聚类分析之前,先将基因表达矩阵标准化,以消除尺度差异对聚类结果的影响,再遵循如图5所示的步骤进行K-means++聚类分析。

图5 K-means++聚类算法流程图

通过上述方法得到较为精确的K值(如图4)后再通过K-Means聚类分析,得到最终的分类结果如表1所示。

表1 聚类表

波长

聚类类别(平均值+/-标准差)

F

类别1(n=47)

类别3(n=35)

类别2(n=18)

3795.38

0.953±0.015

0.904±0.013

0.851±0.016

类别1(n=47)

3803.1

0.952±0.015

0.903±0.013

0.85±0.016

类别1(n=47)

通过表1可得定量字段的差异性,其中得到波长为3795.38和3803.1两组数据之间都呈现显著差异,在进行K-means聚类分析时,得到的数据类别之间也存在显著的差异。

图6 聚类散点图

再在python中引入绘图包,引入使用K-Means聚类分析得到的聚类中心坐标,得到三种类别数据的聚类散点图,如图6所示。

表2 评价系数汇总表

评价系数

轮廓系数

DBI

CH

0.611

0.451

346.533

   再对表二分析可得,DBI指标数值为0.451,代表簇间距离大,聚类效果好。CH指标数值为346.533,代表类间中心点与数据集中心点距离大,也表示聚类效果好。通过以上两个评定指标,可以验证建立的聚类分析模型较为可靠。

这篇关于数学建模-最优包衣厚度终点判别法-二(K-Means聚类)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/891615

相关文章

uva 10014 Simple calculations(数学推导)

直接按照题意来推导最后的结果就行了。 开始的时候只做到了第一个推导,第二次没有继续下去。 代码: #include<stdio.h>int main(){int T, n, i;double a, aa, sum, temp, ans;scanf("%d", &T);while(T--){scanf("%d", &n);scanf("%lf", &first);scanf

uva 10025 The ? 1 ? 2 ? ... ? n = k problem(数学)

题意是    ?  1  ?  2  ?  ...  ?  n = k 式子中给k,? 处可以填 + 也可以填 - ,问最小满足条件的n。 e.g k = 12  - 1 + 2 + 3 + 4 + 5 + 6 - 7 = 12 with n = 7。 先给证明,令 S(n) = 1 + 2 + 3 + 4 + 5 + .... + n 暴搜n,搜出当 S(n) >=

uva 11044 Searching for Nessy(小学数学)

题意是给出一个n*m的格子,求出里面有多少个不重合的九宫格。 (rows / 3) * (columns / 3) K.o 代码: #include <stdio.h>int main(){int ncase;scanf("%d", &ncase);while (ncase--){int rows, columns;scanf("%d%d", &rows, &col

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

线性代数|机器学习-P36在图中找聚类

文章目录 1. 常见图结构2. 谱聚类 感觉后面几节课的内容跨越太大,需要补充太多的知识点,教授讲得内容跨越较大,一般一节课的内容是书本上的一章节内容,所以看视频比较吃力,需要先预习课本内容后才能够很好的理解教授讲解的知识点。 1. 常见图结构 假设我们有如下图结构: Adjacency Matrix:行和列表示的是节点的位置,A[i,j]表示的第 i 个节点和第 j 个

基于UE5和ROS2的激光雷达+深度RGBD相机小车的仿真指南(五):Blender锥桶建模

前言 本系列教程旨在使用UE5配置一个具备激光雷达+深度摄像机的仿真小车,并使用通过跨平台的方式进行ROS2和UE5仿真的通讯,达到小车自主导航的目的。本教程默认有ROS2导航及其gazebo仿真相关方面基础,Nav2相关的学习教程可以参考本人的其他博客Nav2代价地图实现和原理–Nav2源码解读之CostMap2D(上)-CSDN博客往期教程: 第一期:基于UE5和ROS2的激光雷达+深度RG

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering)

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering) Power Iteration Clustering (PIC) 是一种基于图的聚类算法,用于在大规模数据集上进行高效的社区检测。PIC 算法的核心思想是通过迭代图的幂运算来发现数据中的潜在簇。该算法适用于处理大规模图数据,特别是在社交网络分析、推荐系统和生物信息学等领域具有广泛应用。Spa

用Pytho解决分类问题_DBSCAN聚类算法模板

一:DBSCAN聚类算法的介绍 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,DBSCAN算法的核心思想是将具有足够高密度的区域划分为簇,并能够在具有噪声的空间数据库中发现任意形状的簇。 DBSCAN算法的主要特点包括: 1. 基于密度的聚类:DBSCAN算法通过识别被低密

OCC开发_变高箱梁全桥建模

概述     上一篇文章《OCC开发_箱梁梁体建模》中详细介绍了箱梁梁体建模的过程。但是,对于实际桥梁,截面可能存在高度、腹板厚度、顶底板厚度变化,全桥的结构中心线存在平曲线和竖曲线。针对实际情况,通过一个截面拉伸来实现全桥建模显然不可能。因此,针对变高箱梁,本文新的思路来实现全桥建模。 思路 上一篇文章通过一个截面拉伸生成几何体的方式行不通,我们可以通过不同面来形成棱柱的方式实现。具体步骤