性能提升和 CoreLink CCI-500 简介

2023-11-22 08:10

本文主要是介绍性能提升和 CoreLink CCI-500 简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原文地址:Extended System Coherency - Part 3 – Increasing Performance and Introducing CoreLink CCI-500

原作者:neilparris

在本周,我们宣布推出旨在增强高端移动体验的全新 IP 套件。 此套件的核心是 ARM CoreLink CCI-500 缓存一致性互联,它以率先获得市场成功的上一代互联为基础,拓展了 ARM 系统在性能和更低功耗上的领先地位。

一年前我发表了与本主题相关的第一篇博文,自此以来阅读量已过 47,000。我们可以发现,系统一致性依然是 SoC 设计起步阶段的一个重要因素。 CoreLink CCI-400 已经大获成功,35 多家受许可方来自各种应用领域,从移动 big.LITTLE 到网络基础结构、数字电视和车载信息娱乐等。 在所有这些应用中,需要多处理器群集的完全一致性,以及加速器及网络和 PCIe 等接口的 IO 一致性。

与 CoreLink CCI-400 相比,CoreLink CCI-500 提供高达两倍的峰值系统带宽,30% 处理器内存性能提升、更低的系统功耗,以及高度缩放和配置能力,能够满足各式应用的需求。 本篇博文将深入细述这些优点,但首先我们简短回顾一下缓存一致性和共享数据。

在本周,我们宣布推出旨在增强高端移动体验的全新 IP 套件。 此套件的核心是 ARM CoreLink CCI-500 缓存一致性互联,它以率先获得市场成功的上一代互联为基础,拓展了 ARM 系统在性能和更低功耗上的领先地位。

一年前我发表了与本主题相关的第一篇博文,自此以来阅读量已过 47,000。我们可以发现,系统一致性依然是 SoC 设计起步阶段的一个重要因素。 CoreLink CCI-400 已经大获成功,35 多家受许可方来自各种应用领域,从移动 big.LITTLE 到网络基础结构、数字电视和车载信息娱乐等。 在所有这些应用中,需要多处理器群集的完全一致性,以及加速器及网络和 PCIe 等接口的 IO 一致性。

与 CoreLink CCI-400 相比,CoreLink CCI-500 提供高达两倍的峰值系统带宽,30% 处理器内存性能提升、更低的系统功耗,以及高度缩放和配置能力,能够满足各式应用的需求。 本篇博文将深入细述这些优点,但首先我们简短回顾一下缓存一致性和共享数据。

01.png

例如,上图中的箭头表示 big 和 LITTLE 处理器群集之间的监听,以及从 IO 接口到两个处理器群集的监听。 这些监听是访问任何共享数据必需的,以此确保其缓存为硬件一致性缓存。 换而言之,确保所有处理器和 IO 看到同一个一致内存视图。

 

对于大多数工作负载而言,作为监听请求结果而执行的大部分查询将不命中,也就是它们无法在缓存中找到所请求数据的副本。 这意味着许多由监听引发的查询可能造成对带宽和能源的不必要使用。 当然,我们已经剔除了软件缓存维护的更高成本,但或许我们可以进一步优化?

 

监听过滤器介绍

此时监听过滤器登上舞台。通过将监听过滤器集成到互联之中,我们可以维护一个处理器缓存内容目录,免除广播监听的必要。

监听过滤器的原理如下:

  • 所有已缓存的共享内存的标记存储在互联内的一个目录中(监听过滤器)
  • 所有共享访问将查询这一监听过滤器,可能的回复有两种:
    • 命中     –> 数据在片上,提供一个指向具有该数据的群集的矢量
    • 未命中  –> 转而从外部内存获取

 

02.png

功率优势

得益于集成式监听过滤器,CoreLink CCI-500 能够比上一代互联更加节省系统内存功耗。这种功耗节省受益于执行一个中央监听查询而不是许多个,同时减少每个命中缓存的监听的外部内存访问次数。 此外,它也可能在监听过滤器回复一致性请求期间,让处理器群集在更长的时间内保持低功耗睡眠状态。

 

性能优势

移动系统通常为每个处理器群集包含异步时钟桥接器,而这些桥接器之间的通信会带来延迟。 相反,与互联监听过滤器的通信更快速、更容易,功耗也更低。 监听延迟性的减缓可以让处理器性能受益,基准测试表明在内存密集的处理器工作负载中性能提升 30%。 这有助于让您的移动设备速度更快、响应更灵敏,而且能加快视频编辑等生产力应用程序的速度。

另外,通过减少监听,系统中的处理器可以将它们的资源集中于处理性能,更少地去响应监听。 实际上,它意味着用户将拥有性能更高、功耗更低的 SoC。

 

可缩放解决方案

许多市场中都有采用多群集 SoC 的一致趋势,因为设计团队努力要释放更多的计算性能。 扩展到处理器群集更多、带宽更高的系统,也将显现出监听过滤器的更大优势。 实际上,它已成为将性能扩展到两个处理器群集以上时的必要元素。CoreLink CCI-500 具有高度可缩放性,支持从 1 到 4 个 ACE 接口(即 1 到 4 个处理器群集)的配置。 双群集 big.LITTLE 将依然是移动应用中的标准,而对其他应用而言,也有采用更多处理器或者一致性加速器的机会。

基础结构联网和服务器应用已经在处理器和 IO 之间拥有很高比例的共享内存访问;ARM CoreLink CCN 缓存一致性网络系列产品已经包含了集成式监听过滤器,为这些应用所需的高性能和低延迟提供保障。 CoreLink CCN 系列依然是性能最高的一致性互联 IP,支持最多 12 个群集(48 核心)、集成式 L3 系统缓存,以及超过 1GHz 的时钟速度。 CoreLink CCI-500 针对移动和其他功率受限应用所需的性能和功率范围进行了优化。 作为补充的 CoreLink NIC-400 网络互联则提供低功耗、低延迟的“其余 SoC”连接,满足 IO 互联请求程序和数十或数百外设与接口的需求。

没有“一码通吃”的互联;相反,ARM 拥有针对每种应用的需求而优化的各种产品。

 

内存带宽需求提升

智能手机和平板电脑等移动设备的性能一代代提升;而实际上,平板电脑正在取代许多笔记本电脑的购买量。 SoC 性能的一个重要维度是内存带宽,而这是由屏幕分辨率、3D 游戏、分辨率更高的多摄像头,以及分辨率很高的外部显示屏而推动的。 “视网膜”级显示分辨率已经是移动设备中的常态,而具备超高清 4K 显示屏的高端电视机也已面世一两年。 4K 内容出现在移动设备中也只是时间问题而已。

为支持这种内存带宽的提升,SoC 供应商将目光投向最新的低功耗双数据率 (LPDDR) 动态 RAM (DRAM) 技术。LPDDR3 是完备的技术,于 2013 年现身于消费型设备;LPDDR4 则在部分 2014 款设备上采用,2015 年将继续在移动和非移动应用中提高采用率。 每一代 LPDDR 都会降低电压,同时提高接口频率,其最终结果: 带宽更大,每位能耗更低。 单个 32 位 LPDDR4-3200 接口将提供 12.8GB/s 的速度,而这是当今高端智能手机的典型配置。

 

CoreLink CCI-500 提供更高的系统带宽

对于移动设备而言,32 位内存通道是常见配置。单通道内存用于成本较低的入门级智能手机,双通道面向高端智能手机,而四通道则运用在性能最高的平板电脑上。

CoreLink CCI-500 将 CoreLink CCI-400 的峰值系统带宽翻了一番,支持最多 4 个内存通道。 这或许能让合作伙伴构建支持 34GB/s 及以上的内存系统,打造高性能、高分辨率的平板电脑产品。 当然,对多种应用的缩放能力很重要,CoreLink CCI-500 可以根据性能要求配置为 1 到 4 个内存通道。

 

完整系统的一部分

ARM CoreLink 互联的一个最大优势是它与我们的 Cortex® 和 Mali™ 处理器产品一同开发、验证和优化,拥有我们合作伙伴期望的高质量水平。 本周的发布会还公布了 Cortex-A72(ARM 性能最高的 Cortex 处理器)、Mali-T880 GPU(我们最新 Mali-V550 视频 Mali-DP550 显示 IP 的高端配置),以及面向 16 FinFet 的 Artisan 物理 IP。

 

 

03.png

为了完善 SoC,ARM 还提供一整套系统 IP,如 CoreLink NIC-400 网络互联(面向其余 SoC 的低功耗、低延迟、端对端连接)、CoreLink MMU-500 系统 MMU(用于 IO 虚拟化),以及 CoreLink GIC-500(用于多群集之间的中断管理),当然还有用于调试和追踪的 CoreSight 。 所有这一切的核心是 CoreLink CCI-500 缓存一致性互联。

小结

与我们所见的许多其他计算功能首先从企业级应用开始一样,移动 SoC 也在芯片上的共享流量数量上紧跟步伐。 这证明了移动计算能力依然在稳步前行,正在融入几年前仅在高端笔记本电脑上采用的许多功能。 移动设备现在本身也是高性能设备,这不足为奇。

我个人期待看到 2020 款设备与今天高端移动设备相比的结果,也期待着迎接未来的挑战,开发出能够为明日高端设备提供基础结构的 ARM 技术。 在您眼中,5 年后的设备会是什么样子呢?

这篇关于性能提升和 CoreLink CCI-500 简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/408726

相关文章

Spring Security简介、使用与最佳实践

《SpringSecurity简介、使用与最佳实践》SpringSecurity是一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架,本文给大家介绍SpringSec... 目录一、如何理解 Spring Security?—— 核心思想二、如何在 Java 项目中使用?——

Java Stream 并行流简介、使用与注意事项小结

《JavaStream并行流简介、使用与注意事项小结》Java8并行流基于StreamAPI,利用多核CPU提升计算密集型任务效率,但需注意线程安全、顺序不确定及线程池管理,可通过自定义线程池与C... 目录1. 并行流简介​特点:​2. 并行流的简单使用​示例:并行流的基本使用​3. 配合自定义线程池​示

从原理到实战解析Java Stream 的并行流性能优化

《从原理到实战解析JavaStream的并行流性能优化》本文给大家介绍JavaStream的并行流性能优化:从原理到实战的全攻略,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的... 目录一、并行流的核心原理与适用场景二、性能优化的核心策略1. 合理设置并行度:打破默认阈值2. 避免装箱

深度剖析SpringBoot日志性能提升的原因与解决

《深度剖析SpringBoot日志性能提升的原因与解决》日志记录本该是辅助工具,却为何成了性能瓶颈,SpringBoot如何用代码彻底破解日志导致的高延迟问题,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言第一章:日志性能陷阱的底层原理1.1 日志级别的“双刃剑”效应1.2 同步日志的“吞吐量杀手”

PostgreSQL简介及实战应用

《PostgreSQL简介及实战应用》PostgreSQL是一种功能强大的开源关系型数据库管理系统,以其稳定性、高性能、扩展性和复杂查询能力在众多项目中得到广泛应用,本文将从基础概念讲起,逐步深入到高... 目录前言1. PostgreSQL基础1.1 PostgreSQL简介1.2 基础语法1.3 数据库

Java利用@SneakyThrows注解提升异常处理效率详解

《Java利用@SneakyThrows注解提升异常处理效率详解》这篇文章将深度剖析@SneakyThrows的原理,用法,适用场景以及隐藏的陷阱,看看它如何让Java异常处理效率飙升50%,感兴趣的... 目录前言一、检查型异常的“诅咒”:为什么Java开发者讨厌它1.1 检查型异常的痛点1.2 为什么说

Python库 Django 的简介、安装、用法入门教程

《Python库Django的简介、安装、用法入门教程》Django是Python最流行的Web框架之一,它帮助开发者快速、高效地构建功能强大的Web应用程序,接下来我们将从简介、安装到用法详解,... 目录一、Django 简介 二、Django 的安装教程 1. 创建虚拟环境2. 安装Django三、创

Java慢查询排查与性能调优完整实战指南

《Java慢查询排查与性能调优完整实战指南》Java调优是一个广泛的话题,它涵盖了代码优化、内存管理、并发处理等多个方面,:本文主要介绍Java慢查询排查与性能调优的相关资料,文中通过代码介绍的非... 目录1. 事故全景:从告警到定位1.1 事故时间线1.2 关键指标异常1.3 排查工具链2. 深度剖析:

深入解析Java NIO在高并发场景下的性能优化实践指南

《深入解析JavaNIO在高并发场景下的性能优化实践指南》随着互联网业务不断演进,对高并发、低延时网络服务的需求日益增长,本文将深入解析JavaNIO在高并发场景下的性能优化方法,希望对大家有所帮助... 目录简介一、技术背景与应用场景二、核心原理深入分析2.1 Selector多路复用2.2 Buffer

MySQL 索引简介及常见的索引类型有哪些

《MySQL索引简介及常见的索引类型有哪些》MySQL索引是加速数据检索的特殊结构,用于存储列值与位置信息,常见的索引类型包括:主键索引、唯一索引、普通索引、复合索引、全文索引和空间索引等,本文介绍... 目录什么是 mysql 的索引?常见的索引类型有哪些?总结性回答详细解释1. MySQL 索引的概念2