P02114200祁琪,P02114213杨佳儒,P02114193魏子昂,P02114105江琦,P02114208辜子豪——信息熵可加性和递增性的证明研究与拓展

本文主要是介绍P02114200祁琪,P02114213杨佳儒,P02114193魏子昂,P02114105江琦,P02114208辜子豪——信息熵可加性和递增性的证明研究与拓展,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

1.预备知识

2.证明过程

2.1.对于信息熵可加性的证明

2.2.对于信息熵递增性的证明

3.拓展

3.1可加性的拓展

 3.2递增性的扩展

 3.3信息粒和决策树

3.3.1.信息粒

3.3.2.信息熵与信息粒

3.3.3.决策树

3.3. 4.信息粒与决策树

3.3.5.结论

4.总结

1.预备知识

信息熵(information entropy)是信息论的基本概念。描述信息源各可能事件发生的不确定性。20世纪40年代,香农(C.E.Shannon)借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,并给出了计算信息熵的数学表达式。信息熵的提出解决了对信息的量化度量问题。

信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量

信息论之父克劳德·艾尔伍德·香农第一次用数学语言阐明了概率与信息冗余度的关系。

其中,x表示随机变量,与之相对应的是所有可能输出的集合,定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大. 信息熵《博弈圣经》 信息熵:信息的基本作用就是消除人们对事物的不确定性。多数粒子组合之后,在它似像非像的形态上押上有价值的数码,具体地说,这就是一个在博弈对局中信息混乱的现象。香农指出,它的准确信息量应该是-(p1*log(2,p1) + p2 * log(2,p2) + ... +p32 *log(2,p32)), 信息熵 其中,p1,p2 , ...,p32 分别是这 32 个球队夺冠的概率。香农把它称为“信息熵” (Entropy),一般用符号 H 表示,单位是比特。有兴趣的读者可以推算一下当 32 个球队夺冠概率相同时,对应的信息熵等于五比特。有数学基础的读者还可以证明上面公式的值不可能大于五。

对于任意一个随机变量 X(比如得冠军的球队),它的熵定义如下:变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。熵的概念源自热物理学。

2.证明过程

2.1.对于信息熵可加性的证明

H(X,Y)=H(X)+H(Y/X),当X、Y相互独立时,H(X,Y)=H(X)+H(Y)。

如果考虑概率的形式,设X的概率分布为(P1,P2,…Pn),已知X的情况下Y的条件概率为P(Y=yj/X=xi)=pij,则可加性表示为:

 利用Matlab证明熵的可加性:

首先,需要定义两个独立系统的熵分别为S1和S2。然后,将这两个系统组合成一个大系统,其熵为S。利用熵的定义式和熵的可加性公式,即S=S1+S2,证明熵的可加性。

代码如下:

% 定义两个独立系统的熵
S1 = 1.5;
S2 = 2.0;
% 计算这两个系统组合成的大系统的熵
S = S1 + S2;
% 验证熵的可加性是否成立
if abs(S - (S1 + S2)) < eps
disp('熵的可加性成立');
else
disp('熵的可加性不成立');
End

这段代码中,eps表示机器精度,用于判断两个浮点数是否相等。如果输出结果为“熵的可加性成立”,则说明熵的可加性在这两个系统中成立。

2.2.对于信息熵递增性的证明

 该性质表明,若信源X中有一元素划分成m个符号,而这m个符号的概率之和等于原元素的概率,则新元素的熵会增加。熵增加了的一项是由于划分而产生的不确定性。

3.拓展

3.1可加性的拓展

 3.2递增性的扩展

 3.3信息粒和决策树

前言:

信息熵是信息系统不确定程度的度量,熵越大,系统的不确定性也越大,确定它需要的信息量也越大。 在一个信息系统中,信息熵经常与信息粒和决策树相联系。

3.3.1.信息粒

信息粒化这一概念最早是由Lotfi A. Zadeh(L.A. Zadeh)教授提出的.信息粒化就是将一个整体分解为一个个的部分进行研究,每个部分为一个信息粒. Zadeh教授指出:信息粒就是一些元素的集合,这些元素由于难以区别、或相似、或接近或某种功能而结合在一起.

信息粒作为信息的表现形式在我们的周围是无所不在的,它是人类认识世界的一个基本概念.人类在认识世界时往往将一部分相似的事物放在一起作为一个整体研究它们所具有的性质或特点,实际上,这种处理事物的方式就是信息粒化.而所研究的“整体”就称为信息粒. 例如:时间信息粒有年、月、日、时等.从时间信息粒中可以看出信息粒在本质上是分层次的,一种信息粒可以细化为更“低”一层次的信息粒。

3.3.2.信息熵与信息粒

3.3.3.决策树

决策树是一个预测模型,它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。

从数据产生决策树的机器学习技术叫做决策树学习,通俗说就是决策树。

一个决策树包含三种类型的节点:

  1. 决策节点:通常用矩形框来表示
  2. 机会节点:通常用圆圈来表示
  3. 终结节点:通常用三角形来表示

3.3. 4.信息粒与决策树

3.3.5.结论

不同的信息粒所描述的信息含量有所不同.信息粒的粗细影响着计算复杂度和问题求解效果.在研究了粗粒度和细粒度对信息熵和条件熵及决策树的影响,得出了结论:粗信息粒的信息熵不小于细信息粒的信息熵及条件熵,细信息粒下选取扩展属性产生的决策树优于粗信息粒下选取扩展属性生成的决策树。

4.总结

  信息熵性质的研究是香农信息论在理论与编码应用方面的重要内容之一。本调研证明了递增性和可加性,并在此基础上拓展了可加性和递增性,并介绍了信息粒和决策树的基本性质。

调研成员:

P02114200祁琪,P02114213杨佳儒,P02114193魏子昂,P02114105江琦,P02114208辜子豪

指导老师:

李丽萍

这篇关于P02114200祁琪,P02114213杨佳儒,P02114193魏子昂,P02114105江琦,P02114208辜子豪——信息熵可加性和递增性的证明研究与拓展的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/360807

相关文章

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

POJ1631最长单调递增子序列

最长单调递增子序列 import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.io.PrintWriter;import java.math.BigInteger;import java.util.StringTokenizer;publ

一种改进的red5集群方案的应用、基于Red5服务器集群负载均衡调度算法研究

转自: 一种改进的red5集群方案的应用: http://wenku.baidu.com/link?url=jYQ1wNwHVBqJ-5XCYq0PRligp6Y5q6BYXyISUsF56My8DP8dc9CZ4pZvpPz1abxJn8fojMrL0IyfmMHStpvkotqC1RWlRMGnzVL1X4IPOa_  基于Red5服务器集群负载均衡调度算法研究 http://ww

生信圆桌x生信分析平台:助力生物信息学研究的综合工具

介绍 少走弯路,高效分析;了解生信云,访问 【生信圆桌x生信专用云服务器】 : www.tebteb.cc 生物信息学的迅速发展催生了众多生信分析平台,这些平台通过集成各种生物信息学工具和算法,极大地简化了数据处理和分析流程,使研究人员能够更高效地从海量生物数据中提取有价值的信息。这些平台通常具备友好的用户界面和强大的计算能力,支持不同类型的生物数据分析,如基因组、转录组、蛋白质组等。

开题报告中的研究方法设计:AI能帮你做什么?

AIPaperGPT,论文写作神器~ https://www.aipapergpt.com/ 大家都准备开题报告了吗?研究方法部分是不是已经让你头疼到抓狂? 别急,这可是大多数人都会遇到的难题!尤其是研究方法设计这一块,选定性还是定量,怎么搞才能符合老师的要求? 每次到这儿,头脑一片空白。 好消息是,现在AI工具火得一塌糊涂,比如ChatGPT,居然能帮你在研究方法这块儿上出点主意。是不

研究人员在RSA大会上演示利用恶意JPEG图片入侵企业内网

安全研究人员Marcus Murray在正在旧金山举行的RSA大会上公布了一种利用恶意JPEG图片入侵企业网络内部Windows服务器的新方法。  攻击流程及漏洞分析 最近,安全专家兼渗透测试员Marcus Murray发现了一种利用恶意JPEG图片来攻击Windows服务器的新方法,利用该方法还可以在目标网络中进行特权提升。几天前,在旧金山举行的RSA大会上,该Marcus现场展示了攻击流程,

安卓玩机工具------小米工具箱扩展工具 小米机型功能拓展

小米工具箱扩展版                     小米工具箱扩展版 iO_Box_Mi_Ext是由@晨钟酱开发的一款适用于小米(MIUI)、多亲(2、2Pro)、多看(多看电纸书)的多功能工具箱。该工具所有功能均可以免root实现,使用前,请打开开发者选项中的“USB调试”  功能特点 【小米工具箱】 1:冻结MIUI全家桶,隐藏状态栏图标,修改下拉通知栏图块数量;冻结

Science Robotics 首尔国立大学研究团队推出BBEX外骨骼,实现多维力量支持!

重复性举起物体可能会对脊柱和背部肌肉造成损伤,由此引发的腰椎损伤是工业环境等工作场所中一个普遍且令人关注的问题。为了减轻这类伤害,有研究人员已经研发出在举起任务中为工人提供辅助的背部支撑装置。然而,现有的这类装置通常无法在非对称性的举重过程中提供多维度的力量支持。此外,针对整个人体脊柱的设备安全性验证也一直是一个缺失的环节。 据探索前沿科技边界,传递前沿科技成果的X-robot投稿,来自首尔国立

代码随想录训练营day37|52. 携带研究材料,518.零钱兑换II,377. 组合总和 Ⅳ,70. 爬楼梯

52. 携带研究材料 这是一个完全背包问题,就是每个物品可以无限放。 在一维滚动数组的时候规定了遍历顺序是要从后往前的,就是因为不能多次放物体。 所以这里能多次放物体只需要把遍历顺序改改就好了 # include<iostream># include<vector>using namespace std;int main(){int n,m;cin>>n>>m;std::vector<i

代码随想录刷题day25丨491.递增子序列 ,46.全排列 ,47.全排列 II

代码随想录刷题day25丨491.递增子序列 ,46.全排列 ,47.全排列 II 1.题目 1.1递增子序列 题目链接:491. 非递减子序列 - 力扣(LeetCode) 视频讲解:回溯算法精讲,树层去重与树枝去重 | LeetCode:491.递增子序列_哔哩哔哩_bilibili 文档讲解:https://programmercarl.com/0491.%E9%80%92%E