jemalloc原理概览

2023-10-13 07:08
文章标签 原理 概览 jemalloc

本文主要是介绍jemalloc原理概览,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

jemalloc在linux的世界里声名鹊起,并被移植到多个平台。后起之秀的tcmalloc性能与之相近,虽有谷歌这个牛爹,但因jemalloc专美在前,tcmalloc的使用范围还是略逊一筹。网络上关于jemalloc的各种解读很多,不再一一赘述,这里 挑一些关键点来分析。

一、地址访问
malloc和free的第一个参数都是内存地址,如何快速定位到该地址所属的内存块基址呢,在高频内存分配中,这是第一 要务。jemalloc使用一个简单的技巧,chunk = addr & (~chunksize_mask) ,确保寻址O(1)就能完成。在这个公式中,有一个很隐晦的前提是,chunk的地址,必须能够满足类似0xaabb0000这样格式,其尾部0的数量要大于等于chunksize_mask的F的数量。
jemalloc在分配时,会做这样的尝试,alloc_size = size + aligment - PAGE_SIZE,然后去掉头部,保证chunk地址满足这样的条件。如果不能,则将多余的内存地址还给系统。

二、内存页管理
小对象可以用技巧映射到chunk,对于chunk寻址就没有办法用上面这招了。jemalloc用三层基数树,所以查找效率还是相当高的,只是增删除改查时,需要加锁。加锁会影响效率,当因为次数比较少,倒不会有太大的影响。需要注意的是,jemalloc的这个全局基数树的节点在分配之后,是不释放的,直到最终进程退出。jemalloc从系统中,每次都是以4M为基准申请的。

三、长度对齐
在实际场景中,请求分配字节大小是随机的,如果按照真实大小分配,容易引起内存页缺失中断,因此需要字节对齐。在jemalloc中,并不是固定字节对齐,而是按照如下表的逻辑:
序号
大小区间
字节对齐
0
[0--16]
8
1
(16 , 128]
16
2
(128 , 256]
32
3
(256 , 512]
64

四、线程竞争
在内存分配过程中,锁会造成线程等待,对性能影响巨大。jemalloc采用了两种措施避免线程竞争锁的发生,
1、使用线程变量,每个线程有自己的内存管理器,分配在这个线程内完成,就不需要和其他线程竞争。
2、竞技场,分配一个数组,每个线程通过线程号的映射,对应到一个数组元素中。这样,多个线程竞争一个元素的概率就下降。
有点令人诧异的是,jemalloc使用原子操作基本没有,锁都是用粒度较大的mutex。只有需要较长等待时,比如陷入系统时才有必要用这种粗粒度的锁。和竞技场相关的资料颇多,可以在网上找找。

五、分配流程
我们假设一个应用场景,要分配一个大小为SIZE的内存块,那么流程如下:
1、选定一个arena或者tcache。
2、计算对应的对齐长度,见第三节,根据对齐长度,计算出arena中bins的下标。
3、在一个bins中,如果runccur可用,则在runcur中分配,否则从runs中选择一个。
4、从选定的run中,计算bitmap,得到空闲的region,后返回。



这篇关于jemalloc原理概览的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/201558

相关文章

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

hdu4407(容斥原理)

题意:给一串数字1,2,......n,两个操作:1、修改第k个数字,2、查询区间[l,r]中与n互质的数之和。 解题思路:咱一看,像线段树,但是如果用线段树做,那么每个区间一定要记录所有的素因子,这样会超内存。然后我就做不来了。后来看了题解,原来是用容斥原理来做的。还记得这道题目吗?求区间[1,r]中与p互质的数的个数,如果不会的话就先去做那题吧。现在这题是求区间[l,r]中与n互质的数的和

hdu4407容斥原理

题意: 有一个元素为 1~n 的数列{An},有2种操作(1000次): 1、求某段区间 [a,b] 中与 p 互质的数的和。 2、将数列中某个位置元素的值改变。 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.Inpu

hdu4059容斥原理

求1-n中与n互质的数的4次方之和 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.io.PrintWrit

寻迹模块TCRT5000的应用原理和功能实现(基于STM32)

目录 概述 1 认识TCRT5000 1.1 模块介绍 1.2 电气特性 2 系统应用 2.1 系统架构 2.2 STM32Cube创建工程 3 功能实现 3.1 代码实现 3.2 源代码文件 4 功能测试 4.1 检测黑线状态 4.2 未检测黑线状态 概述 本文主要介绍TCRT5000模块的使用原理,包括该模块的硬件实现方式,电路实现原理,还使用STM32类

TL-Tomcat中长连接的底层源码原理实现

长连接:浏览器告诉tomcat不要将请求关掉。  如果不是长连接,tomcat响应后会告诉浏览器把这个连接关掉。    tomcat中有一个缓冲区  如果发送大批量数据后 又不处理  那么会堆积缓冲区 后面的请求会越来越慢。

PHP原理之内存管理中难懂的几个点

PHP的内存管理, 分为俩大部分, 第一部分是PHP自身的内存管理, 这部分主要的内容就是引用计数, 写时复制, 等等面向应用的层面的管理. 而第二部分就是今天我要介绍的, zend_alloc中描写的关于PHP自身的内存管理, 包括它是如何管理可用内存, 如何分配内存等. 另外, 为什么要写这个呢, 因为之前并没有任何资料来介绍PHP内存管理中使用的策略, 数据结构, 或者算法. 而在我们

Smarty模板执行原理

为了实现程序的业务逻辑和内容表现页面的分离从而提高开发速度,php 引入了模板引擎的概念,php 模板引擎里面最流行的可以说是smarty了,smarty因其功能强大而且速度快而被广大php web开发者所认可。本文将记录一下smarty模板引擎的工作执行原理,算是加深一下理解。 其实所有的模板引擎的工作原理是差不多的,无非就是在php程序里面用正则匹配将模板里面的标签替换为php代码从而将两者

Restful API 原理以及实现

先说说API 再说啥是RESRFUL API之前,咱先说说啥是API吧。API大家应该都知道吧,简称接口嘛。随着现在移动互联网的火爆,手机软件,也就是APP几乎快爆棚了。几乎任何一个网站或者应用都会出一款iOS或者Android APP,相比网页版的体验,APP确实各方面性能要好很多。 那么现在问题来了。比如QQ空间网站,如果我想获取一个用户发的说说列表。 QQ空间网站里面需要这个功能。

laravel框架实现redis分布式集群原理

在app/config/database.php中配置如下: 'redis' => array('cluster' => true,'default' => array('host' => '172.21.107.247','port' => 6379,),'redis1' => array('host' => '172.21.107.248','port' => 6379,),) 其中cl