Numpy数据存取与函数 北理工嵩天老师python数据分析与展示 单元2随堂笔记

本文主要是介绍Numpy数据存取与函数 北理工嵩天老师python数据分析与展示 单元2随堂笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Numpy数据存取与函数 北理工嵩天老师python数据分析与展示 单元2随堂笔记

数据的csv文件存取

csv文件

CSV文件(Comma-Separated Value,逗号分隔值)
CSV是一种常见的文件格式,用来存储批量数据。

将文件写入CSV文件:
np.savetxt(frame,array,fmt="%.18e",delimiter=None)

参数:
frame:文件(如:a.csv)、字符串或产生器,可以是.gz或.bz2的压缩文件。
array:存入文件的数组。
fmt:写入文件的格式,例如:%d %.2f %.18e(科学计数法保留18位小数).a.csv
delimiter:分割字符串,默认是空格。

import numpy as np
a = np.arange(100).reshape(5,20)
a
array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,16, 17, 18, 19],[20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,36, 37, 38, 39],[40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55,56, 57, 58, 59],[60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75,76, 77, 78, 79],[80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95,96, 97, 98, 99]])
np.savetxt('a.csv',a,fmt='%d',delimiter=',')   #以整数存储

文件打开后如下所示:
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39
40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59
60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79
80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99

np.savetxt('a.csv',a,fmt='%.1f',delimiter=',')  #以浮点数存储

文件打开后如下所示:
0.0,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0,10.0,11.0,12.0,13.0,14.0,15.0,16.0,17.0,18.0,19.0
20.0,21.0,22.0,23.0,24.0,25.0,26.0,27.0,28.0,29.0,30.0,31.0,32.0,33.0,34.0,35.0,36.0,37.0,38.0,39.0
40.0,41.0,42.0,43.0,44.0,45.0,46.0,47.0,48.0,49.0,50.0,51.0,52.0,53.0,54.0,55.0,56.0,57.0,58.0,59.0
60.0,61.0,62.0,63.0,64.0,65.0,66.0,67.0,68.0,69.0,70.0,71.0,72.0,73.0,74.0,75.0,76.0,77.0,78.0,79.0
80.0,81.0,82.0,83.0,84.0,85.0,86.0,87.0,88.0,89.0,90.0,91.0,92.0,93.0,94.0,95.0,96.0,97.0,98.0,99.0

读入csv文件
np.loadtxt(frame,dtype=np.float,delimiter=None,unpack=False)

参数:
frame:文件、字符串或产生器,可以是.gz或.bz2的压缩文件。
dtype:数据类型,可选。
delimiter:分割字符串,默认是任何空格。
unpack:如果True,读入属性将分别写入不同变量。

b = np.loadtxt('a.csv',delimiter=',')  #导入数据
b
array([[ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12.,13., 14., 15., 16., 17., 18., 19.],[20., 21., 22., 23., 24., 25., 26., 27., 28., 29., 30., 31., 32.,33., 34., 35., 36., 37., 38., 39.],[40., 41., 42., 43., 44., 45., 46., 47., 48., 49., 50., 51., 52.,53., 54., 55., 56., 57., 58., 59.],[60., 61., 62., 63., 64., 65., 66., 67., 68., 69., 70., 71., 72.,73., 74., 75., 76., 77., 78., 79.],[80., 81., 82., 83., 84., 85., 86., 87., 88., 89., 90., 91., 92.,93., 94., 95., 96., 97., 98., 99.]])
b = np.loadtxt('a.csv',dtype=np.int,delimiter=',')  #以整数导入数据
b
array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,16, 17, 18, 19],[20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,36, 37, 38, 39],[40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55,56, 57, 58, 59],[60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75,76, 77, 78, 79],[80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95,96, 97, 98, 99]])
CSV文件的局限性

CSV文件只能有效存储一维和二维数组
np.savetxt() np.loadtxt()只能有效存取一维和二维数组

任意维度数据的存取

存储

利用ndarray中的tofile()方法
a.tofile(frame,sep=’’,format=’%s’)
参数:
frame:文件、字符串。
sep:数据分割字符串,如果是空串,写入文件为二进制。
format:写入数据的格式。

a = np.arange(100).reshape(5,10,2)
a.tofile('b.bat',sep=",",format="%d")

文件打开如下,没有维度信息,只是将数组中的元素逐一地列出并输出到该文件中,是个文本文件。
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99

a = np.arange(100).reshape(5,10,2)
a.tofile('b.bat',format="%d")   #假设不指定分隔符

生成的文件是一个二进制文件,我们无法用文本编辑器看懂。事实上二进制文件比文本文件占用更小的空间。

读取

  np.fromfile(frame, dtype=float,count=-1,sep='')

参数:
frame:文件、字符串。
dtype:读取的数据类型。
count:读入元素的个数,-1表示读入整个文件。
sep:数据分割字符串,如果是空串,写入文件为二进制。

c = np.fromfile("b.bat",dtype=np.int,sep='').reshape(5,10,2) #利用reshape方法得到想要的数组维度
c
array([[[ 0,  1],[ 2,  3],[ 4,  5],[ 6,  7],[ 8,  9],[10, 11],[12, 13],[14, 15],[16, 17],[18, 19]],[[20, 21],[22, 23],[24, 25],[26, 27],[28, 29],[30, 31],[32, 33],[34, 35],[36, 37],[38, 39]],[[40, 41],[42, 43],[44, 45],[46, 47],[48, 49],[50, 51],[52, 53],[54, 55],[56, 57],[58, 59]],[[60, 61],[62, 63],[64, 65],[66, 67],[68, 69],[70, 71],[72, 73],[74, 75],[76, 77],[78, 79]],[[80, 81],[82, 83],[84, 85],[86, 87],[88, 89],[90, 91],[92, 93],[94, 95],[96, 97],[98, 99]]])

注意:

该方法需要读取时知道存入文件时数组的维度和元素类型
a.tofile()和np.fromfile()需要配合使用
为了解决上述问题,我们可以通过再写一个文件,将要存储的数组的每个元素的类型及数组的维度作为元信息存储起来,读入数组时通过元文件获取该数组的信息。
这样的方法显然有一些复杂和麻烦,但是对于一些大规模数据存储时这样的方法还是有效的。

Numpy的便捷文件存取

下面这个方法可以很好地解决多维数组的存取问题
这种方法文件的读取和写入是基于numpy自定义的文件格式,如果你不想用这种文件格式,就用上一种方法,如果无所谓,就使用这种方法。
np.save(fname,array)或np.savez(fname,array)
frame:文件名称,以.npy为扩展名,压缩扩展名为.npz 。这种文件是numpy自定义的文件类型
array:数组变量
np.load(fname)
frame:文件名,以.npy为扩展名,压缩扩展名为.npz

numpy的随机数函数子库

调用 : np.random.*

函数 说明
rand(d0,d1,…dn) 根据d0-dn创建随机数数组,浮点数,[0,1),均匀分布
randn(d0,d1,…dn) 根据d0-dn创建随机数数组,标准正态分布
randint(low[,high,shape]) 根据shape创建随机整数或整数数组,范围是[low,high)
seed(s) 随机数种子,s是给定的种子值

shuffle(a) 根据数组a的第一轴(最外层维度)进行随机排列,改变数组x
permutation(a) 根据数组a的第一轴产生一个新的乱序数组,不改变x
choice(a[,size,replace,p]) 从一维数组a中以概率p抽取元素,形成size形状新数组replace表示是否可以重 用元素,默认为False

uniform(low,high,size) 产生具有均匀分布的数组,low 起始值,high结束值,size形状
normal(loc,scale,size) 产生具有正态分布的数组,loc均值,scale标准差,size形状
poisson(lam,size) 产生具有泊松分布的数组,lam随机事件发生率,size形状

b=np.random.randint(100,200,(8,))
np.random.choice(b,(3,2),p=b/np.sum(b))  #元素值越大被抽到的的概率也越大。
array([[152, 103],[152, 152],[149, 138]])

numpy的统计函数

统计函数即可以对数组进行统计计算的函数
numpy提供了库一级别的统计类函数
调用 : np.*
函数 说明
sum(a,axis=None) 根据给定轴axis计算数组a相关元素之和,axis整数或元组
mean(a,axis=None) 根据给定轴axis计算数组a相关元素的期望,axis整数或元组
average(a,axis=None,weights=None) 根据给定轴axis计算数组a相关元素的加权平均值
std(a,axis=None) 根据给定轴axis计算数组a相关元素的标准差
var(a,axis=None) 根据给定轴axis计算数组a相关元素的方差
min(a) max(a) 计算数组a中元素的最小值、最大值
argmin(a) argmax(a) 计算数组a中元素的最小值、最大值的降成一维数组后下标
unravel_index(index,shape) 根据shape将一维下表index转换成多维下标
ptp(a) 计算数组a中元素的最大值和最小值的差
median(a) 计算数组a中元素的中位数(中值)
说明:axis=None 是统计函数的标配参数,表示对数组中所有元素进行统计计算。

numpy中的梯度函数

 函数                      说明np.gradient(f)           计算数组f中元素的梯度,当f为多维时,返回每个维度的梯度

梯度:连续值之间的变化率,即斜率。 梯度有助于我们发现图像的边缘。
XY坐标轴连续三个X坐标对应的Y轴值:a,b,c, 其中,b的梯度是:(c-a)/2

a=np.random.randint(0,20,(5))
a
array([10,  3, 13, 15,  0])
np.gradient(a)  #各元素梯度
array([ -7. ,   1.5,   6. ,  -6.5, -15. ])

计算元素的梯度值时,如果该元素两侧都有值,则梯度为:(后侧-前侧)/2
如果只有一侧值,则梯度为:(后则-该元素值)/1 或 (该元素值-前侧值)/1

多维函数类似

c=np.random.randint(0,50,(3,5))
c
array([[44,  8, 45, 48,  1],[48, 48, 38, 38,  1],[17, 26, 27, 12, 26]])
np.gradient(c)
[array([[  4. ,  40. ,  -7. , -10. ,   0. ],[-13.5,   9. ,  -9. , -18. ,  12.5],[-31. , -22. , -11. , -26. ,  25. ]]),array([[-36. ,   0.5,  20. , -22. , -47. ],[  0. ,  -5. ,  -5. , -18.5, -37. ],[  9. ,   5. ,  -7. ,  -0.5,  14. ]])]

根据结果可知,第一个矩阵是最外层维度的梯度,第二个矩阵是第二层维度的梯度。

这篇关于Numpy数据存取与函数 北理工嵩天老师python数据分析与展示 单元2随堂笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/749758

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hdu1171(母函数或多重背包)

题意:把物品分成两份,使得价值最接近 可以用背包,或者是母函数来解,母函数(1 + x^v+x^2v+.....+x^num*v)(1 + x^v+x^2v+.....+x^num*v)(1 + x^v+x^2v+.....+x^num*v) 其中指数为价值,每一项的数目为(该物品数+1)个 代码如下: #include<iostream>#include<algorithm>

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal