翻译论文的关键部分 | Parallel Tiled QR Factorization for Multicore Architectures

本文主要是介绍翻译论文的关键部分 | Parallel Tiled QR Factorization for Multicore Architectures,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

SSRFB DTSQT2 DLARFB DGEQT2

1, 对角子矩阵分解


DGEQT2
这个例程被开发出来,用于针对对角Tile子矩阵: \mathbf{A_{kk}(b \times b)},执行不分块的QR分解。
这个运算产生:
一个上三角矩阵 R_{kk}
一个酉下三角矩阵V_{kk},这个矩阵包含 b 个 Householder 反光面、
一个上三角矩阵 T_{kk},在WY技术中,这个矩阵被定义用来累计Householder变换。
R_{kk}V_{kk} 能够写进 A_{kk} 所占据的内存空间,所以并不需要为他们分配额外的空间。
为了存储 T_{kk},则需要一个临时的工作空间。
因此,\mathbf{DGEQT2(A_{kk}, T_{kk})} 执行的如下动作:

            \mathbf{A_{kk} <-- V_{kk}, R_{kk}}       \mathbf{T_{kk} <-- T_{kk}}

2, 将对角变换实施到同行子矩阵

DLARFB
通过上一个例程 DGEQT2 得到了一个变换 \mathbf{(V_{kk},T_{kk})} .
那么,这是LAPACK中的例程 DLARFB,将被用来将变换 \mathbf{(V_{kk},T_{kk})} 实施到 Tile 子矩阵  \mathbf{A_{kj}} 上面。
因此,\mathbf{DLARFB(A_{kj},V_{kk},T_{kk})} 执行如下动作:

           \mathbf{A_{kj} <- (I - V_{kk}T_{kk}{V_{kk}}_T)A_{kj}}


 
DTSQT2

这个例程开发用来执行一个非分块矩阵的QR分解,
这个被分解的矩阵由那个上三角块矩阵 \mathbf{R_{kk}和方形矩阵 \mathbf{A_{ik}} 配对构成.
这个例程将会返回一个上三角矩阵\mathbf{~R_{kk}} ,这将用来重写 \mathbf{R_{kk}},还返回
b 个Householder 反射向量,b 是block tile 子矩阵的阶数。
注意,因为 \mathbf{R_{kk}} 是上三角矩阵,所以这导致 Householder 反射向量,
 可以被表示为一个 单位子块矩阵 I,在子块方阵 \mathbf{V_{ik}} 的上边。

。。。。


DSSRFB

。。。。

这篇关于翻译论文的关键部分 | Parallel Tiled QR Factorization for Multicore Architectures的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1141509

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

poj 2976 分数规划二分贪心(部分对总体的贡献度) poj 3111

poj 2976: 题意: 在n场考试中,每场考试共有b题,答对的题目有a题。 允许去掉k场考试,求能达到的最高正确率是多少。 解析: 假设已知准确率为x,则每场考试对于准确率的贡献值为: a - b * x,将贡献值大的排序排在前面舍弃掉后k个。 然后二分x就行了。 代码: #include <iostream>#include <cstdio>#incl

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

笔记整理—内核!启动!—kernel部分(2)从汇编阶段到start_kernel

kernel起始与ENTRY(stext),和uboot一样,都是从汇编阶段开始的,因为对于kernel而言,还没进行栈的维护,所以无法使用c语言。_HEAD定义了后面代码属于段名为.head .text的段。         内核起始部分代码被解压代码调用,前面关于uboot的文章中有提到过(eg:zImage)。uboot启动是无条件的,只要代码的位置对,上电就工作,kern

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

项目实战系列三: 家居购项目 第四部分

购物车 🌳购物车🍆显示购物车🍆更改商品数量🍆清空购物车&&删除商品 🌳生成订单 🌳购物车 需求分析 1.会员登陆后, 可以添加家居到购物车 2.完成购物车的设计和实现 3.每添加一个家居,购物车的数量+1, 并显示 程序框架图 1.新建src/com/zzw/furns/entity/CartItem.java, CartItem-家居项模型 /***