[Python]生成器和yield关键字

2024-09-07 22:36

本文主要是介绍[Python]生成器和yield关键字,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

生成器和yield关键字

1.生成器介绍:

概述:
​ 它指的是 generator, 类似于以前学过的: 列表推导式, 集合推导式, 字典推导式…
作用:
​ 降低资源消耗, 快速(批量)生成数据.
实现方式:

​ 1.推导式写法.

my_generator = (i for i in range(5))

​ 2.yield写法.

def get_generator():for i in range(1, 6):yield i     # yield会记录每个生成的数据, 然后逐个的放到生成器对象中, 最终返回生成器对象.

问题: 如何从生成器对象中获取数据?
​ 答案:

​ 1.for循环遍历

​ 2.next()函数, 逐个获取.

# 案例1: 回顾之前的列表推导式, 集合推导式.
# 需求: 生成 1 ~ 5 的数据.
my_list = [i for i in range(1, 6)]
print(my_list, type(my_list))   # [1, 2, 3, 4, 5] <class 'list'>my_set = {i for i in range(1, 6)}
print(my_set, type(my_set))     # {1, 2, 3, 4, 5} <class 'set'># 案例2: 演示 生成器写法1, 推导式写法
# 尝试写一下, "元组"推导式, 发现打印的结果不是元组, 而是对象, 因为这种写法叫: 生成器.
my_tuple = (i for i in range(1, 6))print(my_tuple)             # <generator object <genexpr> at 0x0000024C90F056D0>    生成器对象
print(type(my_tuple))       # <class 'generator'>       生成器类型
print('-' * 31)# 案例3: 如何从生成器对象中获取数据呢?
# 1. 定义生成器, 获取 1 ~ 5的数字.
my_generator = (i for i in range(1, 6))# 2. 从生成器中获取数据.
# 格式1: for循环遍历
for i in my_generator:print(i)# 格式2: next()函数, 逐个获取.
print(next(my_generator))       # 1
print(next(my_generator))       # 2
2.yield关键字
# 案例: 演示 yield关键字方式, 获取生成器.# 需求: 自定义 get_generator()函数, 获取 包括: 1 ~ 5之间的整数 生成器.
# 1. 定义函数.
def get_generator():"""用于演示 yield关键字的用法:return: 生成器对象."""# 思路1: 自定义列表, 添加指定元素, 并返回.# my_list = []# for i in range(1, 6):#     my_list.append(i)# return my_list# 思路2: yield写法, 即: 如下的代码, 效果同上.for i in range(1, 6):yield i     # yield会记录每个生成的数据, 然后逐个的放到生成器对象中, 最终返回生成器对象.# 在main中测试.
if __name__ == '__main__':# 2. 调用函数, 获取生成器对象.my_generator = get_generator()# 3. 从生成器中获取每个元素.print(next(my_generator))   # 1print(next(my_generator))   # 2print('-' * 31)# 4. 遍历, 获取每个元素.for i in my_generator:print(i)
3.生成批次的数据
案例: 用生成器生成批次数据, 在模型训练中, 数据都是分批次来 "喂".需求: 读取项目下的  jaychou_lyrics.txt文件(其中有5000多条 歌词数据), 按照8/ 批次, 获取生成器, 并从中获取数据.
"""
import math# 需求1: 铺垫知识,  math.ceil(数字):  获取指定数字的天花板数(向上取整), 即: 比这个数字大的所有整数中, 最小的哪个整数.
# print(math.ceil(5.1))       # 6
# print(math.ceil(5.6))       # 6
# print(math.ceil(5.0))       # 5# 需求2: 获取生成器对象, 从文件中读数据数据, n条 / 批次
# 1. 定义函数 dataset_loader(batch_size), 表示: 数据生成器, 按照 batch_size条 分批.
def dataset_loader(batch_size):     # 假设: batch_size = 8"""该函数用于获取生成器对象, 每条数据都是一批次的数据.: 生成器(8, 8, 8...):param batch_size: 每批次有多少条数据:return: 返回生成器对象."""# 1.1 读取文件, 获取到每条(每行)数据.with open("./jaychou_lyrics.txt", 'r', encoding='utf-8') as f:# 一次读取所有行, 每行封装成字符串, 整体放到列表中.data_lines = f.readlines()      # 结果: [第一行, 第二行, 第三行...]# 1.2 根据上述的数据, 计算出: 数据的总条数(总行数), 假设: 100行(条)line_count = len(data_lines)# 1.3 基于上述的总条数 和 batch_size(每批次的条数), 获取: 批次总数(即: 总共多少批)batch_count = math.ceil(line_count / batch_size)        # 例如: math.ceil(100 / 8) = 13# 1.4 具体的获取每批次数据的动作, 用 yield包裹, 放到生成器中, 并最终返回生成器(对象)即可.for i in range(batch_count):        # batch_count的值: 13,  i的值: 0, 1, 2, 3, 4, 5, .... 12# 1.5 yield会记录每批次数据, 封装到生成器中, 并返回(生成器对象)"""推理过程:i = 0, 代表第1批次数据, 想要 第 1~~~~8 条数据,:  data_lines[0:8]      i = 1, 代表第2批次数据, 想要 第 9~~~~16 条数据,:  data_lines[8:16]      i = 2, 代表第3批次数据, 想要 第 17~~~~24 条数据,:  data_lines[16:24]......      """yield data_lines[i * batch_size: i * batch_size + batch_size]# 在main中, 测试调用
if __name__ == '__main__':# 2. 获取生成器对象.my_generator = dataset_loader(13)# 3. 从生成器中获取第 1 批数据.# print(next(my_generator))# # 从第一批次中, 获取具体的每一条数据.# for line in next(my_generator):#     print(line, end='')## print('-' * 31)## # 从第二批次中, 获取具体的每一条数据.# for line in next(my_generator):#     print(line, end='')# print('-' * 31)# 4. 查看具体的每一批数据.for batch_data in my_generator:print(batch_data)

文件:jaychou_lyrics.txt


这篇关于[Python]生成器和yield关键字的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1146350

相关文章

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

nudepy,一个有趣的 Python 库!

更多资料获取 📚 个人网站:ipengtao.com 大家好,今天为大家分享一个有趣的 Python 库 - nudepy。 Github地址:https://github.com/hhatto/nude.py 在图像处理和计算机视觉应用中,检测图像中的不适当内容(例如裸露图像)是一个重要的任务。nudepy 是一个基于 Python 的库,专门用于检测图像中的不适当内容。该

pip-tools:打造可重复、可控的 Python 开发环境,解决依赖关系,让代码更稳定

在 Python 开发中,管理依赖关系是一项繁琐且容易出错的任务。手动更新依赖版本、处理冲突、确保一致性等等,都可能让开发者感到头疼。而 pip-tools 为开发者提供了一套稳定可靠的解决方案。 什么是 pip-tools? pip-tools 是一组命令行工具,旨在简化 Python 依赖关系的管理,确保项目环境的稳定性和可重复性。它主要包含两个核心工具:pip-compile 和 pip

HTML提交表单给python

python 代码 from flask import Flask, request, render_template, redirect, url_forapp = Flask(__name__)@app.route('/')def form():# 渲染表单页面return render_template('./index.html')@app.route('/submit_form',

Oracle Start With关键字

Oracle Start With关键字 前言 旨在记录一些Oracle使用中遇到的各种各样的问题. 同时希望能帮到和我遇到同样问题的人. Start With (树查询) 问题描述: 在数据库中, 有一种比较常见得 设计模式, 层级结构 设计模式, 具体到 Oracle table中, 字段特点如下: ID, DSC, PID; 三个字段, 分别表示 当前标识的 ID(主键), DSC 当

关键字synchronized、volatile的比较

关键字volatile是线程同步的轻量级实现,所以volatile性能肯定比synchronized要好,并且volatile只能修饰于变量,而synchronized可以修饰方法,以及代码块。随着JDK新版本的发布,synchronized关键字的执行效率上得到很大提升,在开发中使用synchronized关键字的比率还是比较大的。多线程访问volatile不会发生阻塞,而synchronize

Python QT实现A-star寻路算法

目录 1、界面使用方法 2、注意事项 3、补充说明 用Qt5搭建一个图形化测试寻路算法的测试环境。 1、界面使用方法 设定起点: 鼠标左键双击,设定红色的起点。左键双击设定起点,用红色标记。 设定终点: 鼠标右键双击,设定蓝色的终点。右键双击设定终点,用蓝色标记。 设置障碍点: 鼠标左键或者右键按着不放,拖动可以设置黑色的障碍点。按住左键或右键并拖动,设置一系列黑色障碍点