并行笔记——SIMD编程

2023-10-15 10:58
文章标签 笔记 编程 并行 simd

本文主要是介绍并行笔记——SIMD编程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

SIMD概念

Single Instruction Multiple Data
也就是单指令流和多数据流,对于多数据流进行相同的操作。
一个简单的例子就是向量的加减。

和MIMD的区别

SIMD拥有单个全局控制单元,而后者拥有多个控制单元+处理元素。

SIMD的应用

图像处理

音频

科学计算

基于数据的数据并行计算。

什么情况下适合应用SIMD

  1. 规律的数据访问模式:数据在内存中连续存储。
  2. 短数据类型
  3. 流式数据处理
  4. ……

Mark:原因不明,之后补上解释。

使用SIMD的优缺点

优点

  1. 具有更大的并发度。
  2. 设计比较简单(应该是与MIMD对比,只需要重复功能单元即可)。
  3. 芯片尺寸更小。

缺点

  1. 程序员开发时必须显式接触硬件。

SIMD并行的问题

SIMD并行开发,可以把多次相同的算术运算简化为一个SIMD操作多个取数/存结果的操作,可以变成一个对于更宽的内存的一次操作(前提是内存需要连续)。

SIMD编程的复杂性

低层编程要求:

  1. 数据必须对齐。
  2. 数据放在连续区域存储。
  3. 控制流问题可能会引入更高的复杂性。

额外开销

  1. 打包、解包开销
    所谓的打包,指的是把运算对象拷贝到连续内存区域。
    解包,指的是把运算结果拷贝回内存。
  2. 对齐开销
    对齐的定义是地址的开始总是向量长度的整数;对于起始地址的偏移是向量长度的整数倍。
    Mark:关于PPT中的调整没有看明白,待补充。
  3. 控制流开销
    控制流开销来自当控制流存在时,所有的路径都执行。这说明一般情况下,当存在控制流问题时,SIMD不是一个好的编程模型
    以下述为例:
    对于所有元素都执行了两个路径的计算,只是最后根据判断条件进行合并。
    在这里插入图片描述

SSE/AVX编程

指令介绍

  1. Blend(A, B, 0xA)
    这里的0xA即1010,作用是掩码;如果为1则取第一个参数向量的数字,如果为0则取第二个参数向量的数字。
  2. Shuffle(D, D, 0xB1)
    这里的0xB1是八位二进制,分成四组;前两组是对应第二个参数的第几位,后两组是对应第二个参数的第几位。

这篇关于并行笔记——SIMD编程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/217213

相关文章

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

Java并发编程必备之Synchronized关键字深入解析

《Java并发编程必备之Synchronized关键字深入解析》本文我们深入探索了Java中的Synchronized关键字,包括其互斥性和可重入性的特性,文章详细介绍了Synchronized的三种... 目录一、前言二、Synchronized关键字2.1 Synchronized的特性1. 互斥2.

Python异步编程中asyncio.gather的并发控制详解

《Python异步编程中asyncio.gather的并发控制详解》在Python异步编程生态中,asyncio.gather是并发任务调度的核心工具,本文将通过实际场景和代码示例,展示如何结合信号量... 目录一、asyncio.gather的原始行为解析二、信号量控制法:给并发装上"节流阀"三、进阶控制

Java之并行流(Parallel Stream)使用详解

《Java之并行流(ParallelStream)使用详解》Java并行流(ParallelStream)通过多线程并行处理集合数据,利用Fork/Join框架加速计算,适用于大规模数据集和计算密集... 目录Java并行流(Parallel Stream)1. 核心概念与原理2. 创建并行流的方式3. 适

C#多线程编程中导致死锁的常见陷阱和避免方法

《C#多线程编程中导致死锁的常见陷阱和避免方法》在C#多线程编程中,死锁(Deadlock)是一种常见的、令人头疼的错误,死锁通常发生在多个线程试图获取多个资源的锁时,导致相互等待对方释放资源,最终形... 目录引言1. 什么是死锁?死锁的典型条件:2. 导致死锁的常见原因2.1 锁的顺序问题错误示例:不同

PyCharm接入DeepSeek实现AI编程的操作流程

《PyCharm接入DeepSeek实现AI编程的操作流程》DeepSeek是一家专注于人工智能技术研发的公司,致力于开发高性能、低成本的AI模型,接下来,我们把DeepSeek接入到PyCharm中... 目录引言效果演示创建API key在PyCharm中下载Continue插件配置Continue引言

C#反射编程之GetConstructor()方法解读

《C#反射编程之GetConstructor()方法解读》C#中Type类的GetConstructor()方法用于获取指定类型的构造函数,该方法有多个重载版本,可以根据不同的参数获取不同特性的构造函... 目录C# GetConstructor()方法有4个重载以GetConstructor(Type[]

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学