性能提升和 CoreLink CCI-500 简介

2023-11-22 08:10

本文主要是介绍性能提升和 CoreLink CCI-500 简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原文地址:Extended System Coherency - Part 3 – Increasing Performance and Introducing CoreLink CCI-500

原作者:neilparris

在本周,我们宣布推出旨在增强高端移动体验的全新 IP 套件。 此套件的核心是 ARM CoreLink CCI-500 缓存一致性互联,它以率先获得市场成功的上一代互联为基础,拓展了 ARM 系统在性能和更低功耗上的领先地位。

一年前我发表了与本主题相关的第一篇博文,自此以来阅读量已过 47,000。我们可以发现,系统一致性依然是 SoC 设计起步阶段的一个重要因素。 CoreLink CCI-400 已经大获成功,35 多家受许可方来自各种应用领域,从移动 big.LITTLE 到网络基础结构、数字电视和车载信息娱乐等。 在所有这些应用中,需要多处理器群集的完全一致性,以及加速器及网络和 PCIe 等接口的 IO 一致性。

与 CoreLink CCI-400 相比,CoreLink CCI-500 提供高达两倍的峰值系统带宽,30% 处理器内存性能提升、更低的系统功耗,以及高度缩放和配置能力,能够满足各式应用的需求。 本篇博文将深入细述这些优点,但首先我们简短回顾一下缓存一致性和共享数据。

在本周,我们宣布推出旨在增强高端移动体验的全新 IP 套件。 此套件的核心是 ARM CoreLink CCI-500 缓存一致性互联,它以率先获得市场成功的上一代互联为基础,拓展了 ARM 系统在性能和更低功耗上的领先地位。

一年前我发表了与本主题相关的第一篇博文,自此以来阅读量已过 47,000。我们可以发现,系统一致性依然是 SoC 设计起步阶段的一个重要因素。 CoreLink CCI-400 已经大获成功,35 多家受许可方来自各种应用领域,从移动 big.LITTLE 到网络基础结构、数字电视和车载信息娱乐等。 在所有这些应用中,需要多处理器群集的完全一致性,以及加速器及网络和 PCIe 等接口的 IO 一致性。

与 CoreLink CCI-400 相比,CoreLink CCI-500 提供高达两倍的峰值系统带宽,30% 处理器内存性能提升、更低的系统功耗,以及高度缩放和配置能力,能够满足各式应用的需求。 本篇博文将深入细述这些优点,但首先我们简短回顾一下缓存一致性和共享数据。

01.png

例如,上图中的箭头表示 big 和 LITTLE 处理器群集之间的监听,以及从 IO 接口到两个处理器群集的监听。 这些监听是访问任何共享数据必需的,以此确保其缓存为硬件一致性缓存。 换而言之,确保所有处理器和 IO 看到同一个一致内存视图。

 

对于大多数工作负载而言,作为监听请求结果而执行的大部分查询将不命中,也就是它们无法在缓存中找到所请求数据的副本。 这意味着许多由监听引发的查询可能造成对带宽和能源的不必要使用。 当然,我们已经剔除了软件缓存维护的更高成本,但或许我们可以进一步优化?

 

监听过滤器介绍

此时监听过滤器登上舞台。通过将监听过滤器集成到互联之中,我们可以维护一个处理器缓存内容目录,免除广播监听的必要。

监听过滤器的原理如下:

  • 所有已缓存的共享内存的标记存储在互联内的一个目录中(监听过滤器)
  • 所有共享访问将查询这一监听过滤器,可能的回复有两种:
    • 命中     –> 数据在片上,提供一个指向具有该数据的群集的矢量
    • 未命中  –> 转而从外部内存获取

 

02.png

功率优势

得益于集成式监听过滤器,CoreLink CCI-500 能够比上一代互联更加节省系统内存功耗。这种功耗节省受益于执行一个中央监听查询而不是许多个,同时减少每个命中缓存的监听的外部内存访问次数。 此外,它也可能在监听过滤器回复一致性请求期间,让处理器群集在更长的时间内保持低功耗睡眠状态。

 

性能优势

移动系统通常为每个处理器群集包含异步时钟桥接器,而这些桥接器之间的通信会带来延迟。 相反,与互联监听过滤器的通信更快速、更容易,功耗也更低。 监听延迟性的减缓可以让处理器性能受益,基准测试表明在内存密集的处理器工作负载中性能提升 30%。 这有助于让您的移动设备速度更快、响应更灵敏,而且能加快视频编辑等生产力应用程序的速度。

另外,通过减少监听,系统中的处理器可以将它们的资源集中于处理性能,更少地去响应监听。 实际上,它意味着用户将拥有性能更高、功耗更低的 SoC。

 

可缩放解决方案

许多市场中都有采用多群集 SoC 的一致趋势,因为设计团队努力要释放更多的计算性能。 扩展到处理器群集更多、带宽更高的系统,也将显现出监听过滤器的更大优势。 实际上,它已成为将性能扩展到两个处理器群集以上时的必要元素。CoreLink CCI-500 具有高度可缩放性,支持从 1 到 4 个 ACE 接口(即 1 到 4 个处理器群集)的配置。 双群集 big.LITTLE 将依然是移动应用中的标准,而对其他应用而言,也有采用更多处理器或者一致性加速器的机会。

基础结构联网和服务器应用已经在处理器和 IO 之间拥有很高比例的共享内存访问;ARM CoreLink CCN 缓存一致性网络系列产品已经包含了集成式监听过滤器,为这些应用所需的高性能和低延迟提供保障。 CoreLink CCN 系列依然是性能最高的一致性互联 IP,支持最多 12 个群集(48 核心)、集成式 L3 系统缓存,以及超过 1GHz 的时钟速度。 CoreLink CCI-500 针对移动和其他功率受限应用所需的性能和功率范围进行了优化。 作为补充的 CoreLink NIC-400 网络互联则提供低功耗、低延迟的“其余 SoC”连接,满足 IO 互联请求程序和数十或数百外设与接口的需求。

没有“一码通吃”的互联;相反,ARM 拥有针对每种应用的需求而优化的各种产品。

 

内存带宽需求提升

智能手机和平板电脑等移动设备的性能一代代提升;而实际上,平板电脑正在取代许多笔记本电脑的购买量。 SoC 性能的一个重要维度是内存带宽,而这是由屏幕分辨率、3D 游戏、分辨率更高的多摄像头,以及分辨率很高的外部显示屏而推动的。 “视网膜”级显示分辨率已经是移动设备中的常态,而具备超高清 4K 显示屏的高端电视机也已面世一两年。 4K 内容出现在移动设备中也只是时间问题而已。

为支持这种内存带宽的提升,SoC 供应商将目光投向最新的低功耗双数据率 (LPDDR) 动态 RAM (DRAM) 技术。LPDDR3 是完备的技术,于 2013 年现身于消费型设备;LPDDR4 则在部分 2014 款设备上采用,2015 年将继续在移动和非移动应用中提高采用率。 每一代 LPDDR 都会降低电压,同时提高接口频率,其最终结果: 带宽更大,每位能耗更低。 单个 32 位 LPDDR4-3200 接口将提供 12.8GB/s 的速度,而这是当今高端智能手机的典型配置。

 

CoreLink CCI-500 提供更高的系统带宽

对于移动设备而言,32 位内存通道是常见配置。单通道内存用于成本较低的入门级智能手机,双通道面向高端智能手机,而四通道则运用在性能最高的平板电脑上。

CoreLink CCI-500 将 CoreLink CCI-400 的峰值系统带宽翻了一番,支持最多 4 个内存通道。 这或许能让合作伙伴构建支持 34GB/s 及以上的内存系统,打造高性能、高分辨率的平板电脑产品。 当然,对多种应用的缩放能力很重要,CoreLink CCI-500 可以根据性能要求配置为 1 到 4 个内存通道。

 

完整系统的一部分

ARM CoreLink 互联的一个最大优势是它与我们的 Cortex® 和 Mali™ 处理器产品一同开发、验证和优化,拥有我们合作伙伴期望的高质量水平。 本周的发布会还公布了 Cortex-A72(ARM 性能最高的 Cortex 处理器)、Mali-T880 GPU(我们最新 Mali-V550 视频 Mali-DP550 显示 IP 的高端配置),以及面向 16 FinFet 的 Artisan 物理 IP。

 

 

03.png

为了完善 SoC,ARM 还提供一整套系统 IP,如 CoreLink NIC-400 网络互联(面向其余 SoC 的低功耗、低延迟、端对端连接)、CoreLink MMU-500 系统 MMU(用于 IO 虚拟化),以及 CoreLink GIC-500(用于多群集之间的中断管理),当然还有用于调试和追踪的 CoreSight 。 所有这一切的核心是 CoreLink CCI-500 缓存一致性互联。

小结

与我们所见的许多其他计算功能首先从企业级应用开始一样,移动 SoC 也在芯片上的共享流量数量上紧跟步伐。 这证明了移动计算能力依然在稳步前行,正在融入几年前仅在高端笔记本电脑上采用的许多功能。 移动设备现在本身也是高性能设备,这不足为奇。

我个人期待看到 2020 款设备与今天高端移动设备相比的结果,也期待着迎接未来的挑战,开发出能够为明日高端设备提供基础结构的 ARM 技术。 在您眼中,5 年后的设备会是什么样子呢?

这篇关于性能提升和 CoreLink CCI-500 简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/408726

相关文章

MySQL深分页进行性能优化的常见方法

《MySQL深分页进行性能优化的常见方法》在Web应用中,分页查询是数据库操作中的常见需求,然而,在面对大型数据集时,深分页(deeppagination)却成为了性能优化的一个挑战,在本文中,我们将... 目录引言:深分页,真的只是“翻页慢”那么简单吗?一、背景介绍二、深分页的性能问题三、业务场景分析四、

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

Linux系统性能检测命令详解

《Linux系统性能检测命令详解》本文介绍了Linux系统常用的监控命令(如top、vmstat、iostat、htop等)及其参数功能,涵盖进程状态、内存使用、磁盘I/O、系统负载等多维度资源监控,... 目录toppsuptimevmstatIOStatiotopslabtophtopdstatnmon

PowerShell中15个提升运维效率关键命令实战指南

《PowerShell中15个提升运维效率关键命令实战指南》作为网络安全专业人员的必备技能,PowerShell在系统管理、日志分析、威胁检测和自动化响应方面展现出强大能力,下面我们就来看看15个提升... 目录一、PowerShell在网络安全中的战略价值二、网络安全关键场景命令实战1. 系统安全基线核查

Qt QCustomPlot库简介(最新推荐)

《QtQCustomPlot库简介(最新推荐)》QCustomPlot是一款基于Qt的高性能C++绘图库,专为二维数据可视化设计,它具有轻量级、实时处理百万级数据和多图层支持等特点,适用于科学计算、... 目录核心特性概览核心组件解析1.绘图核心 (QCustomPlot类)2.数据容器 (QCPDataC

JVisualVM之Java性能监控与调优利器详解

《JVisualVM之Java性能监控与调优利器详解》本文将详细介绍JVisualVM的使用方法,并结合实际案例展示如何利用它进行性能调优,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录1. JVisualVM简介2. JVisualVM的安装与启动2.1 启动JVisualVM2

Java使用MethodHandle来替代反射,提高性能问题

《Java使用MethodHandle来替代反射,提高性能问题》:本文主要介绍Java使用MethodHandle来替代反射,提高性能问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录一、认识MethodHandle1、简介2、使用方式3、与反射的区别二、示例1、基本使用2、(重要)

PyTorch高级特性与性能优化方式

《PyTorch高级特性与性能优化方式》:本文主要介绍PyTorch高级特性与性能优化方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、自动化机制1.自动微分机制2.动态计算图二、性能优化1.内存管理2.GPU加速3.多GPU训练三、分布式训练1.分布式数据

rust 中的 EBNF简介举例

《rust中的EBNF简介举例》:本文主要介绍rust中的EBNF简介举例,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1. 什么是 EBNF?2. 核心概念3. EBNF 语法符号详解4. 如何阅读 EBNF 规则5. 示例示例 1:简单的电子邮件地址

Python 异步编程 asyncio简介及基本用法

《Python异步编程asyncio简介及基本用法》asyncio是Python的一个库,用于编写并发代码,使用协程、任务和Futures来处理I/O密集型和高延迟操作,本文给大家介绍Python... 目录1、asyncio是什么IO密集型任务特征2、怎么用1、基本用法2、关键字 async1、async