性能提升和 CoreLink CCI-500 简介

2023-11-22 08:10

本文主要是介绍性能提升和 CoreLink CCI-500 简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原文地址:Extended System Coherency - Part 3 – Increasing Performance and Introducing CoreLink CCI-500

原作者:neilparris

在本周,我们宣布推出旨在增强高端移动体验的全新 IP 套件。 此套件的核心是 ARM CoreLink CCI-500 缓存一致性互联,它以率先获得市场成功的上一代互联为基础,拓展了 ARM 系统在性能和更低功耗上的领先地位。

一年前我发表了与本主题相关的第一篇博文,自此以来阅读量已过 47,000。我们可以发现,系统一致性依然是 SoC 设计起步阶段的一个重要因素。 CoreLink CCI-400 已经大获成功,35 多家受许可方来自各种应用领域,从移动 big.LITTLE 到网络基础结构、数字电视和车载信息娱乐等。 在所有这些应用中,需要多处理器群集的完全一致性,以及加速器及网络和 PCIe 等接口的 IO 一致性。

与 CoreLink CCI-400 相比,CoreLink CCI-500 提供高达两倍的峰值系统带宽,30% 处理器内存性能提升、更低的系统功耗,以及高度缩放和配置能力,能够满足各式应用的需求。 本篇博文将深入细述这些优点,但首先我们简短回顾一下缓存一致性和共享数据。

在本周,我们宣布推出旨在增强高端移动体验的全新 IP 套件。 此套件的核心是 ARM CoreLink CCI-500 缓存一致性互联,它以率先获得市场成功的上一代互联为基础,拓展了 ARM 系统在性能和更低功耗上的领先地位。

一年前我发表了与本主题相关的第一篇博文,自此以来阅读量已过 47,000。我们可以发现,系统一致性依然是 SoC 设计起步阶段的一个重要因素。 CoreLink CCI-400 已经大获成功,35 多家受许可方来自各种应用领域,从移动 big.LITTLE 到网络基础结构、数字电视和车载信息娱乐等。 在所有这些应用中,需要多处理器群集的完全一致性,以及加速器及网络和 PCIe 等接口的 IO 一致性。

与 CoreLink CCI-400 相比,CoreLink CCI-500 提供高达两倍的峰值系统带宽,30% 处理器内存性能提升、更低的系统功耗,以及高度缩放和配置能力,能够满足各式应用的需求。 本篇博文将深入细述这些优点,但首先我们简短回顾一下缓存一致性和共享数据。

01.png

例如,上图中的箭头表示 big 和 LITTLE 处理器群集之间的监听,以及从 IO 接口到两个处理器群集的监听。 这些监听是访问任何共享数据必需的,以此确保其缓存为硬件一致性缓存。 换而言之,确保所有处理器和 IO 看到同一个一致内存视图。

 

对于大多数工作负载而言,作为监听请求结果而执行的大部分查询将不命中,也就是它们无法在缓存中找到所请求数据的副本。 这意味着许多由监听引发的查询可能造成对带宽和能源的不必要使用。 当然,我们已经剔除了软件缓存维护的更高成本,但或许我们可以进一步优化?

 

监听过滤器介绍

此时监听过滤器登上舞台。通过将监听过滤器集成到互联之中,我们可以维护一个处理器缓存内容目录,免除广播监听的必要。

监听过滤器的原理如下:

  • 所有已缓存的共享内存的标记存储在互联内的一个目录中(监听过滤器)
  • 所有共享访问将查询这一监听过滤器,可能的回复有两种:
    • 命中     –> 数据在片上,提供一个指向具有该数据的群集的矢量
    • 未命中  –> 转而从外部内存获取

 

02.png

功率优势

得益于集成式监听过滤器,CoreLink CCI-500 能够比上一代互联更加节省系统内存功耗。这种功耗节省受益于执行一个中央监听查询而不是许多个,同时减少每个命中缓存的监听的外部内存访问次数。 此外,它也可能在监听过滤器回复一致性请求期间,让处理器群集在更长的时间内保持低功耗睡眠状态。

 

性能优势

移动系统通常为每个处理器群集包含异步时钟桥接器,而这些桥接器之间的通信会带来延迟。 相反,与互联监听过滤器的通信更快速、更容易,功耗也更低。 监听延迟性的减缓可以让处理器性能受益,基准测试表明在内存密集的处理器工作负载中性能提升 30%。 这有助于让您的移动设备速度更快、响应更灵敏,而且能加快视频编辑等生产力应用程序的速度。

另外,通过减少监听,系统中的处理器可以将它们的资源集中于处理性能,更少地去响应监听。 实际上,它意味着用户将拥有性能更高、功耗更低的 SoC。

 

可缩放解决方案

许多市场中都有采用多群集 SoC 的一致趋势,因为设计团队努力要释放更多的计算性能。 扩展到处理器群集更多、带宽更高的系统,也将显现出监听过滤器的更大优势。 实际上,它已成为将性能扩展到两个处理器群集以上时的必要元素。CoreLink CCI-500 具有高度可缩放性,支持从 1 到 4 个 ACE 接口(即 1 到 4 个处理器群集)的配置。 双群集 big.LITTLE 将依然是移动应用中的标准,而对其他应用而言,也有采用更多处理器或者一致性加速器的机会。

基础结构联网和服务器应用已经在处理器和 IO 之间拥有很高比例的共享内存访问;ARM CoreLink CCN 缓存一致性网络系列产品已经包含了集成式监听过滤器,为这些应用所需的高性能和低延迟提供保障。 CoreLink CCN 系列依然是性能最高的一致性互联 IP,支持最多 12 个群集(48 核心)、集成式 L3 系统缓存,以及超过 1GHz 的时钟速度。 CoreLink CCI-500 针对移动和其他功率受限应用所需的性能和功率范围进行了优化。 作为补充的 CoreLink NIC-400 网络互联则提供低功耗、低延迟的“其余 SoC”连接,满足 IO 互联请求程序和数十或数百外设与接口的需求。

没有“一码通吃”的互联;相反,ARM 拥有针对每种应用的需求而优化的各种产品。

 

内存带宽需求提升

智能手机和平板电脑等移动设备的性能一代代提升;而实际上,平板电脑正在取代许多笔记本电脑的购买量。 SoC 性能的一个重要维度是内存带宽,而这是由屏幕分辨率、3D 游戏、分辨率更高的多摄像头,以及分辨率很高的外部显示屏而推动的。 “视网膜”级显示分辨率已经是移动设备中的常态,而具备超高清 4K 显示屏的高端电视机也已面世一两年。 4K 内容出现在移动设备中也只是时间问题而已。

为支持这种内存带宽的提升,SoC 供应商将目光投向最新的低功耗双数据率 (LPDDR) 动态 RAM (DRAM) 技术。LPDDR3 是完备的技术,于 2013 年现身于消费型设备;LPDDR4 则在部分 2014 款设备上采用,2015 年将继续在移动和非移动应用中提高采用率。 每一代 LPDDR 都会降低电压,同时提高接口频率,其最终结果: 带宽更大,每位能耗更低。 单个 32 位 LPDDR4-3200 接口将提供 12.8GB/s 的速度,而这是当今高端智能手机的典型配置。

 

CoreLink CCI-500 提供更高的系统带宽

对于移动设备而言,32 位内存通道是常见配置。单通道内存用于成本较低的入门级智能手机,双通道面向高端智能手机,而四通道则运用在性能最高的平板电脑上。

CoreLink CCI-500 将 CoreLink CCI-400 的峰值系统带宽翻了一番,支持最多 4 个内存通道。 这或许能让合作伙伴构建支持 34GB/s 及以上的内存系统,打造高性能、高分辨率的平板电脑产品。 当然,对多种应用的缩放能力很重要,CoreLink CCI-500 可以根据性能要求配置为 1 到 4 个内存通道。

 

完整系统的一部分

ARM CoreLink 互联的一个最大优势是它与我们的 Cortex® 和 Mali™ 处理器产品一同开发、验证和优化,拥有我们合作伙伴期望的高质量水平。 本周的发布会还公布了 Cortex-A72(ARM 性能最高的 Cortex 处理器)、Mali-T880 GPU(我们最新 Mali-V550 视频 Mali-DP550 显示 IP 的高端配置),以及面向 16 FinFet 的 Artisan 物理 IP。

 

 

03.png

为了完善 SoC,ARM 还提供一整套系统 IP,如 CoreLink NIC-400 网络互联(面向其余 SoC 的低功耗、低延迟、端对端连接)、CoreLink MMU-500 系统 MMU(用于 IO 虚拟化),以及 CoreLink GIC-500(用于多群集之间的中断管理),当然还有用于调试和追踪的 CoreSight 。 所有这一切的核心是 CoreLink CCI-500 缓存一致性互联。

小结

与我们所见的许多其他计算功能首先从企业级应用开始一样,移动 SoC 也在芯片上的共享流量数量上紧跟步伐。 这证明了移动计算能力依然在稳步前行,正在融入几年前仅在高端笔记本电脑上采用的许多功能。 移动设备现在本身也是高性能设备,这不足为奇。

我个人期待看到 2020 款设备与今天高端移动设备相比的结果,也期待着迎接未来的挑战,开发出能够为明日高端设备提供基础结构的 ARM 技术。 在您眼中,5 年后的设备会是什么样子呢?

这篇关于性能提升和 CoreLink CCI-500 简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/408726

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

黑神话,XSKY 星飞全闪单卷性能突破310万

当下,云计算仍然是企业主要的基础架构,随着关键业务的逐步虚拟化和云化,对于块存储的性能要求也日益提高。企业对于低延迟、高稳定性的存储解决方案的需求日益迫切。为了满足这些日益增长的 IO 密集型应用场景,众多云服务提供商正在不断推陈出新,推出具有更低时延和更高 IOPS 性能的云硬盘产品。 8 月 22 日 2024 DTCC 大会上(第十五届中国数据库技术大会),XSKY星辰天合正式公布了基于星

ASIO网络调试助手之一:简介

多年前,写过几篇《Boost.Asio C++网络编程》的学习文章,一直没机会实践。最近项目中用到了Asio,于是抽空写了个网络调试助手。 开发环境: Win10 Qt5.12.6 + Asio(standalone) + spdlog 支持协议: UDP + TCP Client + TCP Server 独立的Asio(http://www.think-async.com)只包含了头文件,不依

业务协同平台--简介

一、使用场景         1.多个系统统一在业务协同平台定义协同策略,由业务协同平台代替人工完成一系列的单据录入         2.同时业务协同平台将执行任务推送给pda、pad等执行终端,通知各人员、设备进行作业执行         3.作业过程中,可设置完成时间预警、作业节点通知,时刻了解作业进程         4.做完再给你做过程分析,给出优化建议         就问你这一套下

从状态管理到性能优化:全面解析 Android Compose

文章目录 引言一、Android Compose基本概念1.1 什么是Android Compose?1.2 Compose的优势1.3 如何在项目中使用Compose 二、Compose中的状态管理2.1 状态管理的重要性2.2 Compose中的状态和数据流2.3 使用State和MutableState处理状态2.4 通过ViewModel进行状态管理 三、Compose中的列表和滚动

容器编排平台Kubernetes简介

目录 什么是K8s 为什么需要K8s 什么是容器(Contianer) K8s能做什么? K8s的架构原理  控制平面(Control plane)         kube-apiserver         etcd         kube-scheduler         kube-controller-manager         cloud-controlle

java学习,进阶,提升

http://how2j.cn/k/hutool/hutool-brief/1930.html?p=73689

【Tools】AutoML简介

摇来摇去摇碎点点的金黄 伸手牵来一片梦的霞光 南方的小巷推开多情的门窗 年轻和我们歌唱 摇来摇去摇着温柔的阳光 轻轻托起一件梦的衣裳 古老的都市每天都改变模样                      🎵 方芳《摇太阳》 AutoML(自动机器学习)是一种使用机器学习技术来自动化机器学习任务的方法。在大模型中的AutoML是指在大型数据集上使用自动化机器学习技术进行模型训练和优化。