Evaluating Emerging CXL-enabled Memory Pooling for HPC Systems——论文泛读

本文主要是介绍Evaluating Emerging CXL-enabled Memory Pooling for HPC Systems——论文泛读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

MCHPC@SC 2022 Paper CXL论文阅读汇总

问题

当前的高性能计算(HPC)系统提供的内存资源是静态配置的,并与计算节点紧密耦合。然而,HPC系统上的工作负载正在演变。多样化的工作负载导致对可配置内存资源的需求,以实现高性能和高利用率。

现有方法局限性

CXL是用于互连处理器、加速器和内存的开放标准。符合CXL标准的硬件提供了对应用程序代码透明的低延迟、高带宽数据访问。一些工作已经探索了用于数据中心和云工作负载的基于CXL的内存[4]–[6],[9]。然而,对HPC系统和工作负载的支持CXL的内存池的全面理解仍然缺失。

本文方法

我们评估了利用CXL内存池技术的内存子系统设计。研究了两个有前景的组合内存子系统的用例:细粒度容量配置和可扩展的带宽配置。我们开发了一个仿真器,以探讨各种内存组合对性能的影响。我们还提供了一个分析器,用于识别应用程序中的内存使用模式及其优化机会。在各种模拟内存配置上评估了七个科学应用和六个图形应用。其中七个科学应用中有三个在内存池支持其75%内存占用时的性能影响不到10%。结果还表明,动态配置的高带宽系统可以有效地支持像OpenFOAM这样的带宽密集型非结构网格应用。最后,我们确定通过共享内存池引起的干扰是HPC系统采用该技术面临的一个实际挑战。

仿真器和分析器

分析器和仿真器由约600行C代码实现,与Linux内核4.14及以上版本兼容。仿真器依赖于libnuma库。为了捕获内存使用度量,分析器和仿真器使用proc文件系统中的/proc/pid子树中的文件。这提供了一种不需要特殊权限的可移植方法。从smaps_rollup中读取的指标,如常驻集大小和引用的内存页数,以及从numa_maps中读取的每个NUMA域中的页面数。从这些文件中读取会导致内核扫描进程的内存区域并返回请求的度量标准。分析器还可以通过写入clear_refs来重置所有页面的引用状态。

为了捕获进程的时间内存使用情况,分析器在计时器模式下运行,它以可配置的频率收集测量值并重置页面状态。为了捕获诸如冷页面数量之类的总结指标,分析器在中断模式下运行,利用Linux作业控制功能。我们修改基准测试以在定时区域的开始和结束时引发SIGSTOP信号,从而暂停进程。暂停进程会使用SIGCHLD信号唤醒分析器。分析器收集测量值并重置页面状态,然后通过发送SIGCONT信号恢复应用程序。对于无法更改基准测试代码的情况,我们还提供了输出中断模式,该模式监视进程的标准输出,并在匹配可配置模式的输出时将其暂停。使用epoll_wait循环等待计时器、信号和输出等事件。

在仿真器中,使用NUMA策略和锁定内存的组合来配置仿真的CXL内存系统。通过使用numa_run_on_node(),将应用程序限制在NUMA节点0上运行。我们让节点0中的内存表示本地/近端内存,其他NUMA节点中的内存表示通过CXL访问的远程内存。默认的分配策略将使用本地节点,直到其填满,然后开始使用其他节点。为了模拟本地和远程内存的一定比例的系统,我们使用mlock()锁定适量的本地内存,以强制分配器使用远程内存。为了模拟只有远程内存的系统,我们将分配策略设置为只使用节点1,使用numa_set_membind()。

采样开销是可调的,基于用户定义的采样频率。在1秒的频率下,与等效的numactl执行相比,分析器的采样开销为3%,仿真器的采样开销为2%。由于锁定了大量本地内存,当使用本地远程比例为0或1以外的比例时,仿真器具有与本地内存数量成比例的额外初始化时间。

使用MPI的工作负载由多个进程组成。在分析器中,我们选择对第0个进程进行采样。在仿真器中,我们独立采样所有进程,并在后处理步骤中聚合结果。

实验

使用两个NUMA测试台来模拟启用CXL的内存系统的潜在配置,如图1所示。第一个测试台具有双插槽Intel Xeon E5-2690V4处理器,通过两个QPI链路连接,配置为两个NUMA域。每个NUMA节点具有64 GB内存容量,总共128 GB内存。第二个测试台有一个AMD EPYC 7742处理器,具有四个NUMA域。它由四个核心复合体组成,每个复合体都有一个单独的内存控制器,分别提供33 GB/s的带宽。该测试台每个NUMA节点具有32 GB的内存容量,总共128 GB的内存。

总结

用仿真器和模拟器评估CXL对HPC应用和图应用的性能影响,将CXL用于内存容量扩展和带宽扩展。

结果显示,在仿真的CXL内存池系统上,CXL内存池占75%的内存使用情况下,七个HPC应用中有五个在仿真CXL系统上几乎没有性能降级。在仿真的高带宽CXL系统上,OpenFOAM和Hypre等带宽敏感性最高的应用程序也保持了性能,突显了CXL启用的内存系统在可扩展、成本效益高带宽系统方面的潜力。对于共享内存服务器上的干扰需要通过系统级的协调来解决,基于对每个作业动态使用情况的理解,以减轻性能降级。

这篇关于Evaluating Emerging CXL-enabled Memory Pooling for HPC Systems——论文泛读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/622609

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

新一代车载(E/E)架构下的中央计算载体---HPC软件架构简介

老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自己,无利益不试图说服别人,是精神上的节能减排。 无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事.而不是让内心的烦躁、焦虑、毁掉你本就不多的热情和定力。 时间不知不觉中,快要来到夏末秋初。一年又过去了一大半,成

2024 年高教社杯全国大学生数学建模竞赛 C 题 农作物的种植策略 参考论文 无水印

持续更新中,2024年数学建模比赛思路代码论文都会发布到专栏内,只需订阅一次!  完整论文+代码+数据结果链接在文末!  订阅后可查看参考论文文件 第一问 1.1 问题重述 这个问题围绕的是华北山区的某乡村,在有限的耕地条件下,如何制定最优的农作物种植策略。乡村有 34 块露天耕地和 20 个大棚,种植条件包括粮食作物、蔬菜、水稻和食用菌。除了要考虑地块的面积、种植季节等,还要确保

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探