性能提升和 CoreLink CCI-500 简介

2023-11-22 08:10

本文主要是介绍性能提升和 CoreLink CCI-500 简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原文地址:Extended System Coherency - Part 3 – Increasing Performance and Introducing CoreLink CCI-500

原作者:neilparris

在本周,我们宣布推出旨在增强高端移动体验的全新 IP 套件。 此套件的核心是 ARM CoreLink CCI-500 缓存一致性互联,它以率先获得市场成功的上一代互联为基础,拓展了 ARM 系统在性能和更低功耗上的领先地位。

一年前我发表了与本主题相关的第一篇博文,自此以来阅读量已过 47,000。我们可以发现,系统一致性依然是 SoC 设计起步阶段的一个重要因素。 CoreLink CCI-400 已经大获成功,35 多家受许可方来自各种应用领域,从移动 big.LITTLE 到网络基础结构、数字电视和车载信息娱乐等。 在所有这些应用中,需要多处理器群集的完全一致性,以及加速器及网络和 PCIe 等接口的 IO 一致性。

与 CoreLink CCI-400 相比,CoreLink CCI-500 提供高达两倍的峰值系统带宽,30% 处理器内存性能提升、更低的系统功耗,以及高度缩放和配置能力,能够满足各式应用的需求。 本篇博文将深入细述这些优点,但首先我们简短回顾一下缓存一致性和共享数据。

在本周,我们宣布推出旨在增强高端移动体验的全新 IP 套件。 此套件的核心是 ARM CoreLink CCI-500 缓存一致性互联,它以率先获得市场成功的上一代互联为基础,拓展了 ARM 系统在性能和更低功耗上的领先地位。

一年前我发表了与本主题相关的第一篇博文,自此以来阅读量已过 47,000。我们可以发现,系统一致性依然是 SoC 设计起步阶段的一个重要因素。 CoreLink CCI-400 已经大获成功,35 多家受许可方来自各种应用领域,从移动 big.LITTLE 到网络基础结构、数字电视和车载信息娱乐等。 在所有这些应用中,需要多处理器群集的完全一致性,以及加速器及网络和 PCIe 等接口的 IO 一致性。

与 CoreLink CCI-400 相比,CoreLink CCI-500 提供高达两倍的峰值系统带宽,30% 处理器内存性能提升、更低的系统功耗,以及高度缩放和配置能力,能够满足各式应用的需求。 本篇博文将深入细述这些优点,但首先我们简短回顾一下缓存一致性和共享数据。

01.png

例如,上图中的箭头表示 big 和 LITTLE 处理器群集之间的监听,以及从 IO 接口到两个处理器群集的监听。 这些监听是访问任何共享数据必需的,以此确保其缓存为硬件一致性缓存。 换而言之,确保所有处理器和 IO 看到同一个一致内存视图。

 

对于大多数工作负载而言,作为监听请求结果而执行的大部分查询将不命中,也就是它们无法在缓存中找到所请求数据的副本。 这意味着许多由监听引发的查询可能造成对带宽和能源的不必要使用。 当然,我们已经剔除了软件缓存维护的更高成本,但或许我们可以进一步优化?

 

监听过滤器介绍

此时监听过滤器登上舞台。通过将监听过滤器集成到互联之中,我们可以维护一个处理器缓存内容目录,免除广播监听的必要。

监听过滤器的原理如下:

  • 所有已缓存的共享内存的标记存储在互联内的一个目录中(监听过滤器)
  • 所有共享访问将查询这一监听过滤器,可能的回复有两种:
    • 命中     –> 数据在片上,提供一个指向具有该数据的群集的矢量
    • 未命中  –> 转而从外部内存获取

 

02.png

功率优势

得益于集成式监听过滤器,CoreLink CCI-500 能够比上一代互联更加节省系统内存功耗。这种功耗节省受益于执行一个中央监听查询而不是许多个,同时减少每个命中缓存的监听的外部内存访问次数。 此外,它也可能在监听过滤器回复一致性请求期间,让处理器群集在更长的时间内保持低功耗睡眠状态。

 

性能优势

移动系统通常为每个处理器群集包含异步时钟桥接器,而这些桥接器之间的通信会带来延迟。 相反,与互联监听过滤器的通信更快速、更容易,功耗也更低。 监听延迟性的减缓可以让处理器性能受益,基准测试表明在内存密集的处理器工作负载中性能提升 30%。 这有助于让您的移动设备速度更快、响应更灵敏,而且能加快视频编辑等生产力应用程序的速度。

另外,通过减少监听,系统中的处理器可以将它们的资源集中于处理性能,更少地去响应监听。 实际上,它意味着用户将拥有性能更高、功耗更低的 SoC。

 

可缩放解决方案

许多市场中都有采用多群集 SoC 的一致趋势,因为设计团队努力要释放更多的计算性能。 扩展到处理器群集更多、带宽更高的系统,也将显现出监听过滤器的更大优势。 实际上,它已成为将性能扩展到两个处理器群集以上时的必要元素。CoreLink CCI-500 具有高度可缩放性,支持从 1 到 4 个 ACE 接口(即 1 到 4 个处理器群集)的配置。 双群集 big.LITTLE 将依然是移动应用中的标准,而对其他应用而言,也有采用更多处理器或者一致性加速器的机会。

基础结构联网和服务器应用已经在处理器和 IO 之间拥有很高比例的共享内存访问;ARM CoreLink CCN 缓存一致性网络系列产品已经包含了集成式监听过滤器,为这些应用所需的高性能和低延迟提供保障。 CoreLink CCN 系列依然是性能最高的一致性互联 IP,支持最多 12 个群集(48 核心)、集成式 L3 系统缓存,以及超过 1GHz 的时钟速度。 CoreLink CCI-500 针对移动和其他功率受限应用所需的性能和功率范围进行了优化。 作为补充的 CoreLink NIC-400 网络互联则提供低功耗、低延迟的“其余 SoC”连接,满足 IO 互联请求程序和数十或数百外设与接口的需求。

没有“一码通吃”的互联;相反,ARM 拥有针对每种应用的需求而优化的各种产品。

 

内存带宽需求提升

智能手机和平板电脑等移动设备的性能一代代提升;而实际上,平板电脑正在取代许多笔记本电脑的购买量。 SoC 性能的一个重要维度是内存带宽,而这是由屏幕分辨率、3D 游戏、分辨率更高的多摄像头,以及分辨率很高的外部显示屏而推动的。 “视网膜”级显示分辨率已经是移动设备中的常态,而具备超高清 4K 显示屏的高端电视机也已面世一两年。 4K 内容出现在移动设备中也只是时间问题而已。

为支持这种内存带宽的提升,SoC 供应商将目光投向最新的低功耗双数据率 (LPDDR) 动态 RAM (DRAM) 技术。LPDDR3 是完备的技术,于 2013 年现身于消费型设备;LPDDR4 则在部分 2014 款设备上采用,2015 年将继续在移动和非移动应用中提高采用率。 每一代 LPDDR 都会降低电压,同时提高接口频率,其最终结果: 带宽更大,每位能耗更低。 单个 32 位 LPDDR4-3200 接口将提供 12.8GB/s 的速度,而这是当今高端智能手机的典型配置。

 

CoreLink CCI-500 提供更高的系统带宽

对于移动设备而言,32 位内存通道是常见配置。单通道内存用于成本较低的入门级智能手机,双通道面向高端智能手机,而四通道则运用在性能最高的平板电脑上。

CoreLink CCI-500 将 CoreLink CCI-400 的峰值系统带宽翻了一番,支持最多 4 个内存通道。 这或许能让合作伙伴构建支持 34GB/s 及以上的内存系统,打造高性能、高分辨率的平板电脑产品。 当然,对多种应用的缩放能力很重要,CoreLink CCI-500 可以根据性能要求配置为 1 到 4 个内存通道。

 

完整系统的一部分

ARM CoreLink 互联的一个最大优势是它与我们的 Cortex® 和 Mali™ 处理器产品一同开发、验证和优化,拥有我们合作伙伴期望的高质量水平。 本周的发布会还公布了 Cortex-A72(ARM 性能最高的 Cortex 处理器)、Mali-T880 GPU(我们最新 Mali-V550 视频 Mali-DP550 显示 IP 的高端配置),以及面向 16 FinFet 的 Artisan 物理 IP。

 

 

03.png

为了完善 SoC,ARM 还提供一整套系统 IP,如 CoreLink NIC-400 网络互联(面向其余 SoC 的低功耗、低延迟、端对端连接)、CoreLink MMU-500 系统 MMU(用于 IO 虚拟化),以及 CoreLink GIC-500(用于多群集之间的中断管理),当然还有用于调试和追踪的 CoreSight 。 所有这一切的核心是 CoreLink CCI-500 缓存一致性互联。

小结

与我们所见的许多其他计算功能首先从企业级应用开始一样,移动 SoC 也在芯片上的共享流量数量上紧跟步伐。 这证明了移动计算能力依然在稳步前行,正在融入几年前仅在高端笔记本电脑上采用的许多功能。 移动设备现在本身也是高性能设备,这不足为奇。

我个人期待看到 2020 款设备与今天高端移动设备相比的结果,也期待着迎接未来的挑战,开发出能够为明日高端设备提供基础结构的 ARM 技术。 在您眼中,5 年后的设备会是什么样子呢?

这篇关于性能提升和 CoreLink CCI-500 简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/408726

相关文章

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

C#使用yield关键字实现提升迭代性能与效率

《C#使用yield关键字实现提升迭代性能与效率》yield关键字在C#中简化了数据迭代的方式,实现了按需生成数据,自动维护迭代状态,本文主要来聊聊如何使用yield关键字实现提升迭代性能与效率,感兴... 目录前言传统迭代和yield迭代方式对比yield延迟加载按需获取数据yield break显式示迭

Java中的Opencv简介与开发环境部署方法

《Java中的Opencv简介与开发环境部署方法》OpenCV是一个开源的计算机视觉和图像处理库,提供了丰富的图像处理算法和工具,它支持多种图像处理和计算机视觉算法,可以用于物体识别与跟踪、图像分割与... 目录1.Opencv简介Opencv的应用2.Java使用OpenCV进行图像操作opencv安装j

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

正则表达式高级应用与性能优化记录

《正则表达式高级应用与性能优化记录》本文介绍了正则表达式的高级应用和性能优化技巧,包括文本拆分、合并、XML/HTML解析、数据分析、以及性能优化方法,通过这些技巧,可以更高效地利用正则表达式进行复杂... 目录第6章:正则表达式的高级应用6.1 模式匹配与文本处理6.1.1 文本拆分6.1.2 文本合并6

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

黑神话,XSKY 星飞全闪单卷性能突破310万

当下,云计算仍然是企业主要的基础架构,随着关键业务的逐步虚拟化和云化,对于块存储的性能要求也日益提高。企业对于低延迟、高稳定性的存储解决方案的需求日益迫切。为了满足这些日益增长的 IO 密集型应用场景,众多云服务提供商正在不断推陈出新,推出具有更低时延和更高 IOPS 性能的云硬盘产品。 8 月 22 日 2024 DTCC 大会上(第十五届中国数据库技术大会),XSKY星辰天合正式公布了基于星

ASIO网络调试助手之一:简介

多年前,写过几篇《Boost.Asio C++网络编程》的学习文章,一直没机会实践。最近项目中用到了Asio,于是抽空写了个网络调试助手。 开发环境: Win10 Qt5.12.6 + Asio(standalone) + spdlog 支持协议: UDP + TCP Client + TCP Server 独立的Asio(http://www.think-async.com)只包含了头文件,不依