Keras深度学习框架基础第二讲:层接口(layers API)第二部分“基本层类”

本文主要是介绍Keras深度学习框架基础第二讲:层接口(layers API)第二部分“基本层类”,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、layer 类

典型的layer类如下

keras.layers.Layer(activity_regularizer=None,trainable=True,dtype=None,autocast=True,name=None,**kwargs
)

这是一个所有层都继承的基类。

一个层是一个可调用的对象,它接受一个或多个张量作为输入,并输出一个或多个张量。它涉及计算,这些计算在call()方法中定义,并且有一个状态(权重变量)。状态可以在以下两种方式中创建:

  • __init__()方法中,例如通过self.add_weight()
  • 在可选的build()方法中,这个方法会在第一次调用该层的__call__()时被调用,并提供输入的形状,这些形状可能在初始化时未知。

层是递归可组合的:如果你将一个层实例作为另一个层的属性,外部层将开始跟踪内部层创建的权重。嵌套层应该在__init__()方法或build()方法中实例化。

用户只需实例化一个层,然后将其当作可调用的对象来使用。

参数

  • trainable: 布尔值,表示该层的变量是否应该是可训练的。
  • name: 字符串,表示层的名称。
  • dtype:层的计算和权重的数据类型。也可以是一个keras.DTypePolicy,它允许计算和权重的数据类型不同。默认为None。如果为None,则使用keras.config.dtype_policy(),这通常是一个float32策略,除非通过keras.config.set_dtype_policy()设置为不同的值。

属性

  • name: 层的名称(字符串)。
  • dtype: 层权重的数据类型。是layer.variable_dtype的别名。
  • variable_dtype: 层权重的数据类型。
  • compute_dtype:层计算的数据类型。层会自动将输入转换为这个数据类型,从而使得计算和输出也在这个数据类型下。当使用混合精度与keras.DTypePolicy时,这可能与variable_dtype不同。
  • trainable_weights: 应在反向传播中包括的变量列表。
  • non_trainable_weights:不应在反向传播中包括的变量列表。
  • weights:trainable_weightsnon_trainable_weights列表的合并(按此顺序)。
  • trainable:该层是否应该被训练(布尔值),即其潜在的可训练权重是否应作为layer.trainable_weights的一部分返回。
  • input_spec: 可选的(一组)InputSpec对象,指定层可以接受的输入的约束。

推荐Layer的子类实现以下方法

  • __init__(self): 定义自定义层属性,并使用add_weight()或其他状态创建不依赖于输入形状的层权重。
  • build(self, input_shape):
    此方法可用于创建依赖于输入形状(s)的权重,使用add_weight()或其他状态。当__call__()被调用时(如果层尚未被构建),它将自动调用build()来构建层。
  • call(self, *args, **kwargs):
    在确保build()已被调用后,在__call__()中被调用。call()方法执行将层应用于输入参数的逻辑。在call()中,你可以选择性地使用两个保留的关键字参数:1. training(布尔值,表示调用是否处于推理模式或训练模式)。2. mask(布尔张量,编码输入中屏蔽的时间步,例如在RNN层中使用)。该方法的一个典型签名是call(self, inputs),如果用户需要,还可以添加trainingmask
  • get_config(self):返回一个字典,包含用于初始化此层的配置。如果字典的键与__init__()中的参数不同,则还需要重写from_config(self)方法。此方法在保存层或包含此层的模型时使用。

示例
以下是一个基础示例,演示了一个包含两个变量w和b的层,它实现了y = w * x + b的计算。这个示例展示了如何实现build()和call()方法,以及如何将变量设置为层的属性以跟踪为层的权重(在layer.weights中)。

class SimpleDense(Layer):def __init__(self, units=32):super().__init__()self.units = units# Create the state of the layer (weights)def build(self, input_shape):self.kernel = self.add_weight(shape=(input_shape[-1], self.units),initializer="glorot_uniform",trainable=True,name="kernel",)self.bias = self.add_weight(shape=(self.units,),initializer="zeros",trainable=True,name="bias",)# Defines the computationdef call(self, inputs):return ops.matmul(inputs, self.kernel) + self.bias# Instantiates the layer.
linear_layer = SimpleDense(4)# This will also call `build(input_shape)` and create the weights.
y = linear_layer(ops.ones((2, 2)))
assert len(linear_layer.weights) == 2# These weights are trainable, so they're listed in `trainable_weights`:
assert len(linear_layer.trainable_weights) == 2

当提到除了通过反向传播在训练过程中更新的可训练权重之外,层还可以具有非可训练权重。这些权重意味着在call()方法调用期间需要手动更新。以下是一个示例层,它计算其输入的累积和(running sum):

class ComputeSum(Layer):def __init__(self, input_dim):super(ComputeSum, self).__init__()# Create a non-trainable weight.self.total = self.add_weight(shape=(),initializer="zeros",trainable=False,name="total",)def call(self, inputs):self.total.assign(self.total + ops.sum(inputs))return self.totalmy_sum = ComputeSum(2)
x = ops.ones((2, 2))
y = my_sum(x)assert my_sum.weights == [my_sum.total]
assert my_sum.non_trainable_weights == [my_sum.total]
assert my_sum.trainable_weights == []

weights属性

keras.layers.Layer.weights

层的所有权重变量的列表。

与 layer.variables 不同,这排除了度量状态和随机种子。

在 TensorFlow 的 Keras API 中,layer.weights 是一个常用的属性,它返回构成层权重的所有变量的列表。这些权重变量是在训练过程中通过反向传播进行更新的。而 layer.variables 属性则包括了层中的所有变量,不仅限于权重,还包括度量状态(例如用于计算损失或准确率的变量)和可能用于初始化层的随机种子等。

因此,当您想要获取并操作层的权重时,通常使用 layer.weights 而不是 layer.variables

trainable_weights属性

keras.layers.Layer.trainable_weights

层的所有可训练权重变量的列表。

这些是在训练过程中由优化器更新的权重。

在TensorFlow的Keras框架中,当你创建一个神经网络层时,该层可能包含多个权重变量。这些权重变量中的一部分是可训练的,意味着在训练模型(即通过反向传播更新权重以最小化损失函数)时,它们会被优化器(如Adam、SGD等)更新。layer.trainable_weights属性返回的就是这些可训练权重变量的列表。
non_trainable_weights属性

keras.layers.Layer.non_trainable_weights

层的所有非可训练权重变量的列表。

这些是在训练过程中不应由优化器更新的权重。与 layer.non_trainable_variables 不同,这排除了度量状态和随机种子。

在TensorFlow的Keras框架中,一个层可能包含一些权重变量,这些变量在训练过程中不应被优化器更新。这些权重变量通常用于存储一些固定的参数或状态,如批量归一化层中的运行均值和方差。layer.non_trainable_weights属性返回的就是这些非可训练权重变量的列表。注意,与layer.non_trainable_variables不同,这个列表仅包含权重变量,而不包括度量状态或随机种子等其他非权重变量。

2、add_weight方法

Layer.add_weight(shape=None,initializer=None,dtype=None,trainable=True,autocast=True,regularizer=None,constraint=None,aggregation="mean",name=None,
)

参数说明

shape:变量的形状元组。必须完全定义(没有None条目)。如果未指定,则默认为()(即标量)。

initializer:用于填充初始变量值的初始化器对象,或者是内置初始化器的字符串名称(例如"random_normal")。如果未指定,对于浮点变量默认为"glorot_uniform",对于其他所有类型(例如int, bool)则默认为"zeros"。

dtype:要创建的变量的数据类型,例如"float32"。如果未指定,则默认为层的变量数据类型(如果层也未指定,则默认为"float32")。

trainable:布尔值,指示该变量是否应通过反向传播进行训练,或者其更新是否由人工管理。默认为True。

autocast:布尔值,指示在访问变量时是否自动进行类型转换。默认为True。

regularizer:正则化器对象,用于在权重上应用惩罚项。这些惩罚项在优化过程中被添加到损失函数中。默认为None。

constraint:约束对象,在优化器更新后应用于变量,或者是内置约束的字符串名称。默认为None。

aggregation:字符串,可选值为’mean’、‘sum’、‘only_first_replica’。为变量添加注解,表示在编写自定义数据并行训练循环时,应使用哪种多副本聚合类型。

name:变量的字符串名称。对于调试很有用。

trainable属性

keras.layers.Layer.trainable

可设置的布尔值,表示此层是否应该可训练。

3、get_weights方法

Layer.get_weights()

返回层的权重值存入NumPy数组的列表。

4 、set_weights方法

Layer.set_weights(weights)

通过NumPy数组的列表设置层的权重值。

5、get_config方法

Model.get_config()

返回对象的配置。

对象的配置是一个Python字典(可序列化),包含了重新实例化该对象所需的信息。

6、add_loss方法

Layer.add_loss(loss)

可以在call()方法内部调用以添加一个标量损失。

在Keras的自定义层或模型中,有时我们可能需要在前向传播(即call()方法)中直接计算某些损失。例如,在正则化层中,我们可能想要根据层的权重或输出计算一个损失项。为了在训练过程中包含这个损失,我们通常会使用add_loss()方法。

add_loss()方法允许你在call()方法内部添加一个标量损失,这个损失将在反向传播时被考虑进去。这通常用于实现自定义的正则化、约束或其他需要在前向传播中计算的损失项。

class MyLayer(Layer):...def call(self, x):self.add_loss(ops.sum(x))return x

losses属性

keras.layers.Layer.losses

add_loss、正则化器和子层中获取的标量损失列表。

在Keras中,当您使用add_loss方法在层或模型中添加损失时,这些损失会被收集起来并在训练过程中被考虑。同样,如果层或模型有正则化器(如权重衰减),那么这些正则化器产生的损失也会被添加到损失列表中。此外,如果层有子层(即嵌套在其他层中的层),那么这些子层的损失也会被包含在内。

这些标量损失在训练过程中会被累加,并用于计算总损失,然后用于反向传播以更新模型的权重。

注意:这些损失通常是在call方法或其他层/模型的方法中通过add_loss方法添加的,并且是在模型编译后、训练开始前计算的。在模型编译之前,losses列表可能为空或只包含由正则化器产生的损失。

这篇关于Keras深度学习框架基础第二讲:层接口(layers API)第二部分“基本层类”的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1002209

相关文章

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

MyBatis框架实现一个简单的数据查询操作

《MyBatis框架实现一个简单的数据查询操作》本文介绍了MyBatis框架下进行数据查询操作的详细步骤,括创建实体类、编写SQL标签、配置Mapper、开启驼峰命名映射以及执行SQL语句等,感兴趣的... 基于在前面几章我们已经学习了对MyBATis进行环境配置,并利用SqlSessionFactory核

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

闲置电脑也能活出第二春?鲁大师AiNAS让你动动手指就能轻松部署

对于大多数人而言,在这个“数据爆炸”的时代或多或少都遇到过存储告急的情况,这使得“存储焦虑”不再是个别现象,而将会是随着软件的不断臃肿而越来越普遍的情况。从不少手机厂商都开始将存储上限提升至1TB可以见得,我们似乎正处在互联网信息飞速增长的阶段,对于存储的需求也将会不断扩大。对于苹果用户而言,这一问题愈发严峻,毕竟512GB和1TB版本的iPhone可不是人人都消费得起的,因此成熟的外置存储方案开

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

基本知识点

1、c++的输入加上ios::sync_with_stdio(false);  等价于 c的输入,读取速度会加快(但是在字符串的题里面和容易出现问题) 2、lower_bound()和upper_bound() iterator lower_bound( const key_type &key ): 返回一个迭代器,指向键值>= key的第一个元素。 iterator upper_bou

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss