【并行计算】【《并行程序设计导论》笔记】第二章：并行硬件和并行软件

本文主要是介绍【并行计算】【《并行程序设计导论》笔记】第二章：并行硬件和并行软件，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

- - 2.1|背景知识
  - - 冯·诺依曼结构
  - 2.2|对冯·诺依曼模型的改进
  - - 指令级并行
    - - 多发射
    - 硬件多线程
    - - 同步多线程
  - 2.3|并行硬件
  - - SIMD系统
    - - 向量加法
      - 向量处理器
      - 向量寄存器
        向量指令
        交叉存储器
        步长存储器访问和硬件散射/聚集
        向量编译器
        可扩展性
      - 图形处理单元（GPU）
    - MIMD系统
    - - 共享内存系统
      - 分布式内存系统
    - Cache一致性
    - - 监听Cache一致性协议
      - 基于目录的Cache一致性协议
      - 伪共享
  - 2.5|输入和输出
  - - 假设与规则

个人主页：丷从心·

系列专栏：并行计算

果上随缘

2.1|背景知识

冯·诺依曼结构

主存和 $CP U$ 之间的分离称为冯·诺依曼瓶颈

2.2|对冯·诺依曼模型的改进

指令级并行

多发射

多发射处理器通过复制功能单元来同时执行程序中的不同指令
如果功能单元是在编译时调度的，则称该多发射系统使用静态多发射，如果是在运行时间调度的，则称该多发射系统使用动态多发射
一个支持动态多发射的处理器称为超标量

硬件多线程

同步多线程

同步多线程是细粒度多线程的变种，通过允许多个线程同时使用多个功能单元来利用超标量处理器的性能
通过指定优先线程能够在一定程度上减轻线程减速的问题，优先线程是指有多条指令就绪的线程

2.3|并行硬件

SIMD系统

典型的冯·诺依曼系统是单指令流单数据流系统

向量加法

有两个数组 $x$ 和 $y$ ，每个都有 $n$ 个元素，把 $y$ 中的元素加到 $x$ 中

for (i = 0;i < n;i++)x[i] += y[i]

假如 $S I M D$ 系统中有 $n$ 个 $A LU$ ，能够将x[i]和y[i]加载到第 $i$ 个 $A LU$ 中，然后让第 $i$ 个 $A LU$ 将x[i]和y[i]相加，最后将结果存储在x[i]中
在经典的 $S I M D$ 系统中， $A LU$ 必须同步操作，即在下一条指令开始执行之前，每个 $A LU$ 必须等待广播

向量处理器

向量寄存器

向量寄存器是能够存储由多个操作数组成的向量，并且能够同时对其内容进行操作的寄存器，向量的长度由系统决定

向量指令

只需要一次加载、一次加法和一次存储操作就能完成对长度为vector_length的数据块的操作

交叉存储器

内存系统由多个内存“体”组成，每个内存体能够独立访问
在访问完一个内存体之后，再次访问它之前需要有一个时间延迟，如果向量中的各个元素分布在不同的内存体中，那么在装入 $/$ 存储连续数据时能够几乎无延迟地访问

步长存储器访问和硬件散射/聚集

程序能够访问向量中固定间隔的元素
散射 $/$ 聚集是对无规律间隔的数据进行读（聚集）和写（散射）

向量编译器

向量编译器擅长于识别向量化的代码
能识别出不能向量化的循环而且能提供循环为什么不能向量化的原因

可扩展性

向量处理器不能处理不规则的数据结构和其他的并行结构，这对可扩展性是个限制

图形处理单元（GPU）

通过在每个 $GP U$ 处理核中引入大量的 $A LU$ 来使用 $S I M D$ 并行
为了避免内存访问带来的延迟， $GP U$ 严重依赖硬件多线程

MIMD系统

$M I M D$ 系统通常是异步的，没有全局时钟

共享内存系统

在拥有多个多核处理器的共享内存系统中，互联网络可以将所有的处理器直接连到主存，称为一致内存访问 $U M A$ 系统，或者也可以将每个处理器直接连到一块内存，通过处理器中内置的特殊硬件使得各个处理器可以访问内存块中的其他块，称为非一致内存访问 $N U M A$ 系统

分布式内存系统

网格提供一种基础架构，使地理上分布的计算机大型网络转换成一个分布式内存系统

Cache一致性

在多核系统中，各个核的 $C a c h e$ 存储相同变量的副本，当一个处理器更新 $C a c h e$ 中该变量的副本时，其他处理器中 $C a c h e$ 的副本也应该更新

监听Cache一致性协议

监听协议的想法来自于基于总线的系统，当多个核共享总线时，总线上传递的信号都能被连接到总线的所有核“看”到
广播会通知其他核包含该变量的整个 $C a c h e$ 行已经更新
监听 $C a c h e$ 一致性协议是不可扩展的，对于大型系统，它会导致性能的下降

基于目录的Cache一致性协议

目录存储每个内存行的状态，这个数据结构是分布式的，每个核 $/$ 内存对负责存储一部分的目录
目录表示局部内存对应高速缓存行的状态
当一个高速缓存行被读入时，与这个高速缓存行相对应的目录项就会更新
当一个变量需要更新时，就会查询目录，并将所有包含该变量高速缓存行置为非法

伪共享

$\ Cache$ 是由硬件来实现的，硬件是对高速缓存行进行操作的，而不是对单独的变量进行操作
伪共享不会引发错误结果，但是它能引起过多不必要的访存，降低程序的性能

2.5|输入和输出

当多个进程能够访问stdout、stderr或stdin时，输入的分布和输出的顺序是非确定的

假设与规则

当并行程序需要输入 $/$ 输出时，做一些假设并遵循一些规则
在分布式内存程序中，只有进程 $0$ 能够访问stdin，在共享内存程序中，只有主线程或者线程 $0$ 能够访问stdin
在分布式内存和共享内存系统中，所有进程 $/$ 线程都能够访问stdout和stderr
只有一个进程 $/$ 线程会尝试访问一个除stdin、stdout或者stderr外的文件

这篇关于【并行计算】【《并行程序设计导论》笔记】第二章：并行硬件和并行软件的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

【并行计算】【《并行程序设计导论》笔记】第二章：并行硬件和并行软件

文章目录

2.1|背景知识

冯·诺依曼结构

2.2|对冯·诺依曼模型的改进

指令级并行

多发射

硬件多线程

同步多线程

2.3|并行硬件

SIMD系统

向量加法

向量处理器

向量寄存器

向量指令

交叉存储器

步长存储器访问和硬件散射/聚集

向量编译器

可扩展性

图形处理单元（GPU）

MIMD系统

共享内存系统

分布式内存系统

Cache一致性

监听Cache一致性协议

基于目录的Cache一致性协议

伪共享

2.5|输入和输出

假设与规则

相关文章

Java Stream 并行流简介、使用与注意事项小结

从原理到实战解析Java Stream 的并行流性能优化

Python学习笔记之getattr和hasattr用法示例详解

Mysql中设计数据表的过程解析

Linux如何快速检查服务器的硬件配置和性能指标

Qt 设置软件版本信息的实现

MyBatis设计SQL返回布尔值(Boolean)的常见方法

安装centos8设置基础软件仓库时出错的解决方案

如何确定哪些软件是Mac系统自带的? Mac系统内置应用查看技巧

Linux下如何使用C++获取硬件信息