【深度学习】S2 数学基础 P1 线性代数(上)

2024-02-14 07:44

本文主要是介绍【深度学习】S2 数学基础 P1 线性代数(上),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 基本数学对象
    • 标量与变量
    • 向量
    • 矩阵
    • 张量
    • 降维求和
    • 非降维求和
    • 累计求和
  • 点积与向量积
    • 点积
    • 矩阵-向量积
    • 矩阵-矩阵乘法

深度学习的三大数学基础 —— 线性代数、微积分、概率论;
自本篇博文以下几遍博文,将对这三大数学基础进行重点提炼。

本节博文将介绍线性代数知识,为线性代数第一部分。包含基本数学对象、算数和运算,并用数学符号和相应的张量代码实现表示它们。


基本数学对象

基本数学对象包含:

  • 0维:标量与变量
  • 1维:向量
  • 2维:矩阵

标量与变量

一个简单的温度转换计算表达式,
c = 5 9 ( f − 52 ) c = \frac 5 9 (f-52) c=95(f52)

其中 c 代表摄氏度,而 f 代表华氏度。
而这个计算表达式中,数值 5、9、52 是标量值,而未知的标量值,即自变量 f 与因变量 c,都是变量值。

标量与变量在张量中,由只有一个元素的张量来表示。

import torch
# 实例化两个标量
x = torch.tensor(3.0)
y = torch.tensor(2.0)# 执行算数运算
print("x+y=", x+y, "\nx*y=", x*y, '\nx/y=', x/y, '\nx**y=', x**y)
x+y= tensor(5.) 
x*y= tensor(6.) 
x/y= tensor(1.5000) 
x**y= tensor(9.)

P.S. 在线性代数中,标量与变量通常用小写不加粗的字母表示, a a a


向量

向量可以视为由一系列标量值组成的列表,这些标量值被称为向量的元素或者分量。当使用向量来表示数据集中的样本时,它们通常具有一定的现实意义。例如一个用于表征用户个人信息的样本可以使用向量表示用户的年龄、性别、收入等标量信息。

使用张量表示向量,通常使用一维张量;

import torchx = torch.arange(4)
print(x)
tensor([0, 1, 2, 3])

索引: 访问向量中的元素,可以直接通过索引值来访问;

print(x[-1])

长度: 所谓向量的长度,指的是向量中标量的个数,通过 len() 函数获取;

print(len(x))

形状: 通过 .shape 属性访问向量的形状。形状是一个元素组,列出张量沿每个轴的长度(维数)。而对于只有一个轴的张量,其形状只有一个元素。

print(x.shape)

P.S. 在线性代数中,向量通常使用粗体小写字母表示: a \mathbf{a} a


矩阵

正如向量是将标量从零阶推广到一阶,矩阵则是将向量从一阶推广到二阶。矩阵 A m n \mathbf{A_{mn}} Amn m m m n n n 列标量组成,其中每个元素 a i j a_{ij} aij 是矩阵中第 i i i j j j 列元素。

使用张量表示矩阵,使用二维张量;

import torchx = torch.arange(20).reshape(5, 4)
print(x)
tensor([[ 0,  1,  2,  3],[ 4,  5,  6,  7],[ 8,  9, 10, 11],[12, 13, 14, 15],[16, 17, 18, 19]])

索引: 访问矩阵中元素,通过行索引( i i i)和列索引( j j j)来访问矩阵中的标量元素 a i j a_{ij} aij

# 访问第二行第三个元素
print(x[1][2])

转置: 交换矩阵的行和列称为矩阵的转置( A T \mathbf{A^T} AT)。对于 B = A T \mathbf{B}=\mathbf{A^T} B=AT,有 b i j = a j i b_{ij}=a_{ji} bij=aji

print(x.T)
tensor([[ 0,  4,  8, 12, 16],[ 1,  5,  9, 13, 17],[ 2,  6, 10, 14, 18],[ 3,  7, 11, 15, 19]])

对称矩阵: 对称矩阵是特殊的方阵,方阵是特殊的矩阵。对于矩阵 A m n \mathbf{A_{mn}} Amn,有方阵( m = n m=n m=n),对称矩阵( A = A T \mathbf{A}=\mathbf{A^T} A=AT

B = torch.tensor([[1, 2, 3],[2, 0, 4],[3, 4, 5]])print(B == B.T)
tensor([[True, True, True],[True, True, True],[True, True, True]])

矩阵是很有用的数据结构,其中的行可对应于不同的数据样本,列对应着不同的属性。


张量

现实世界并非是单纯的二维世界。图片,通常由 RGB 三个颜色通道构成,这就需要一个三维的数据结构来表示。而张量,可以用来表示任意维度数的数据结构。例如:向量是一阶张量,矩阵是二阶张量。

张量算法有两个基本性质:

  • 按元素运算: 两个张量按元素运算,要求其形状 shape 必须相同,张量中对应位置的标量将进行运算操作。
import torchx = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2, 2, 2, 2])
print("x=", x)
print("y=", y)
print("x+y=", x+y)
x= tensor([1., 2., 4., 8.])
y= tensor([2, 2, 2, 2])
x+y= tensor([ 3.,  4.,  6., 10.])
  • 广播机制: 张量的广播机制用于将张量扩展,要求两个向量要分别满足形状( x x x, y y y)与( y y y, z z z)方才可以进行运算。
import torcha = torch.arange(3).reshape(3, 1)
b = torch.arange(2).reshape(1, 2)print("a=", a)
print("b=", b)
print("a*b=", a*b)
a= tensor([[0],[1],[2]])
b= tensor([[0, 1]])
a*b= tensor([[0, 0],[0, 1],[0, 2]])

更多关于张量的操作博文,请移步:【深度学习】S1 预备知识 P1 张量


降维求和

对于一个张量,我们可以使用函数 sum() 进行简答求和;

import torchx = torch.arange(12).reshape(3, -1)
print(x)
print(x.sum())
tensor([[ 0,  1,  2,  3],[ 4,  5,  6,  7],[ 8,  9, 10, 11]])
tensor(66)

在默认情况下,调用求和函数会降低张量的维度直到变成一个标量。但是我们也可以通过 sum() 函数中的变量 axis= 来指定张量沿哪一个轴来进行求和操作。比如;

print(x.sum(axis=0))
tensor([[ 0,  1,  2,  3],[ 4,  5,  6,  7],[ 8,  9, 10, 11]])
tensor([12, 15, 18, 21])

通过在函数 sum() 中设置 axis= 参数,我们可以沿着二维张量的横坐标将其合并成一维的张量向量。

另外,针对多维张量,我们还可以通过将 axis 参数设置为一个数组,来实现同时降低多个维度到指定的维度。

print(x.sum(axis=[0, 1]))
tensor(66)

观察结果可知,数据维度降至默认的标量形式。


非降维求和

然而,在某些情况下,我们可能希望保留计算出的和的结果的原始维度,此时,在 sum(axis=) 函数中需要增加设置 keepdims 参数;

print(x.sum(axis=0))
print(x.sum(axis=0, keepdims=True))
# 打印维度信息
print((x.sum(axis=0)).shape)
print((x.sum(axis=0, keepdims=True)).shape)
tensor([12, 15, 18, 21])
tensor([[12, 15, 18, 21]])
# 维度信息
torch.Size([4])
torch.Size([1, 4])

观察两个结果的对比,明显可以看出它们的维度存在差异。


累计求和

使用 cumsum() 函数,可以实现张量在某一维度上的累加求和操作。

import torchx = torch.arange(12).reshape(3, -1)
print(x)
print(x.cumsum(axis=0))
tensor([[ 0,  1,  2,  3],[ 4,  5,  6,  7],[ 8,  9, 10, 11]])
tensor([[ 0,  1,  2,  3],[ 4,  6,  8, 10],[12, 15, 18, 21]])

可以观察到,张量在其维度上进行逐层累加求和。如上,便是 cumsum() 函数。


点积与向量积

点积

点积(也称为内积)是指两个张量在对应位置上元素相乘后的和。

import torchx = torch.arange(4, dtype=torch.float32)
y = torch.ones(4, dtype=torch.float32)
print("x=", x)
print("y=", y)
print(torch.dot(x, y))
x= tensor([0., 1., 2., 3.])
y= tensor([1., 1., 1., 1.])
tensor(6.)

上述结果: 6 = 0 ∗ 1 + 1 ∗ 1 + 2 ∗ 1 + 3 ∗ 1 6 = 0*1+1*1+2*1+3*1 6=01+11+21+31


矩阵-向量积

矩阵向量积,指的是矩阵与向量的乘法,也就是将矩阵与向量相乘得到一个新的向量。

e . g . e.g. e.g. 假设我们有矩阵 A \mathbf{A} A 和向量 v \mathbf{v} v,其中 A \mathbf{A} A 是一个 m ∗ n m*n mn 矩阵, v \mathbf{v} v 是一个 n n n 维向量,那么它们的向量积 A v \mathbf{Av} Av 是一个 m m m 维向量;

在这里插入图片描述

读者可以借助以下张量的示例来增进理解。

在张量中,通过 mv() 函数来实现矩阵向量积;其中 m m m 意味着矩阵 matrix, v v v 意味着向量 vector;

import torchx = torch.arange(20, dtype=torch.float32).reshape(5, 4)
y = torch.ones(4, dtype=torch.float32)
print("x=", x)
print("y=", y)
print(torch.mv(x, y))
x= tensor([[ 0.,  1.,  2.,  3.],[ 4.,  5.,  6.,  7.],[ 8.,  9., 10., 11.],[12., 13., 14., 15.],[16., 17., 18., 19.]])
y= tensor([1., 1., 1., 1.])
tensor([ 6., 22., 38., 54., 70.])

矩阵-矩阵乘法

矩阵与矩阵乘法,可以看作简单地执行多次矩阵-向量积,并将结果拼接在一起形成矩阵。假设有两个矩阵 A \mathbf{A} A B \mathbf{B} B,其中 A \mathbf{A} A 是一个 m × n m×n m×n 的矩阵, B \mathbf{B} B 是一个 n × p n×p n×p 的矩阵,那么它们的乘积 C = A × B C=A×B C=A×B 是一个 m × p m×p m×p 的矩阵。

在这里插入图片描述

e . g . e.g. e.g. 矩阵-矩阵乘法使用 mm() 函数实现;

import torchx = torch.arange(20, dtype=torch.float32).reshape(5, 4)
y = torch.ones(12, dtype=torch.float32).reshape(4, 3)
print("x=", x)
print("y=", y)
print(torch.mm(x, y))
x= tensor([[ 0.,  1.,  2.,  3.],[ 4.,  5.,  6.,  7.],[ 8.,  9., 10., 11.],[12., 13., 14., 15.],[16., 17., 18., 19.]])
y= tensor([[1., 1., 1.],[1., 1., 1.],[1., 1., 1.],[1., 1., 1.]])
tensor([[ 6.,  6.,  6.],[22., 22., 22.],[38., 38., 38.],[54., 54., 54.],[70., 70., 70.]])

以上便是深度学习数学基础,线性代数第一部分;
线性代数第二部分将讲述 L 1 L1 L1 范数以及 L 2 L2 L2 范数,以及其张量实现。

如有任何问题,请留言或联系!谢谢!!

2024.2.13

这篇关于【深度学习】S2 数学基础 P1 线性代数(上)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/707898

相关文章

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

Go中sync.Once源码的深度讲解

《Go中sync.Once源码的深度讲解》sync.Once是Go语言标准库中的一个同步原语,用于确保某个操作只执行一次,本文将从源码出发为大家详细介绍一下sync.Once的具体使用,x希望对大家有... 目录概念简单示例源码解读总结概念sync.Once是Go语言标准库中的一个同步原语,用于确保某个操

numpy求解线性代数相关问题

《numpy求解线性代数相关问题》本文主要介绍了numpy求解线性代数相关问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 在numpy中有numpy.array类型和numpy.mat类型,前者是数组类型,后者是矩阵类型。数组

使用C#代码计算数学表达式实例

《使用C#代码计算数学表达式实例》这段文字主要讲述了如何使用C#语言来计算数学表达式,该程序通过使用Dictionary保存变量,定义了运算符优先级,并实现了EvaluateExpression方法来... 目录C#代码计算数学表达式该方法很长,因此我将分段描述下面的代码片段显示了下一步以下代码显示该方法如

五大特性引领创新! 深度操作系统 deepin 25 Preview预览版发布

《五大特性引领创新!深度操作系统deepin25Preview预览版发布》今日,深度操作系统正式推出deepin25Preview版本,该版本集成了五大核心特性:磐石系统、全新DDE、Tr... 深度操作系统今日发布了 deepin 25 Preview,新版本囊括五大特性:磐石系统、全新 DDE、Tree

MySQL中my.ini文件的基础配置和优化配置方式

《MySQL中my.ini文件的基础配置和优化配置方式》文章讨论了数据库异步同步的优化思路,包括三个主要方面:幂等性、时序和延迟,作者还分享了MySQL配置文件的优化经验,并鼓励读者提供支持... 目录mysql my.ini文件的配置和优化配置优化思路MySQL配置文件优化总结MySQL my.ini文件

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert