Python(PyTorch)物理变化可微分神经算法

2024-08-20 18:44

本文主要是介绍Python(PyTorch)物理变化可微分神经算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

🎯要点

🎯使用受控物理变换序列实现可训练分层物理计算 | 🎯多模机械振荡、非线性电子振荡器和光学二次谐波生成神经算法验证 | 🎯训练输入数据,物理系统变换产生输出和可微分数字模型估计损失的梯度 | 🎯多模振荡对输入数据进行可控卷积 | 🎯物理神经算法数学表示、可微分数学模型 | 🎯MNIST和元音数据集评估算法

🍪语言内容分比

在这里插入图片描述
在这里插入图片描述

🍇PyTorch可微分优化

假设张量 x x x是元参数, a a a是普通参数(例如网络参数)。我们有内部损失 L in  = a 0 ⋅ x 2 L ^{\text {in }}=a_0 \cdot x^2 Lin =a0x2 并且我们使用梯度 ∂ L in  ∂ a 0 = x 2 \frac{\partial L ^{\text {in }}}{\partial a_0}=x^2 a0Lin =x2 更新 a a a a 1 = a 0 − η ∂ L in  ∂ a 0 = a 0 − η x 2 a_1=a_0-\eta \frac{\partial L ^{\text {in }}}{\partial a_0}=a_0-\eta x^2 a1=a0ηa0Lin =a0ηx2。然后我们计算外部损失 L out  = a 1 ⋅ x 2 L ^{\text {out }}=a_1 \cdot x^2 Lout =a1x2。因此外部损失到 x x x 的梯度为:
∂ L out  ∂ x = ∂ ( a 1 ⋅ x 2 ) ∂ x = ∂ a 1 ∂ x ⋅ x 2 + a 1 ⋅ ∂ ( x 2 ) ∂ x = ∂ ( a 0 − η x 2 ) ∂ x ⋅ x 2 + ( a 0 − η x 2 ) ⋅ 2 x = ( − η ⋅ 2 x ) ⋅ x 2 + ( a 0 − η x 2 ) ⋅ 2 x = − 4 η x 3 + 2 a 0 x \begin{aligned} \frac{\partial L ^{\text {out }}}{\partial x} & =\frac{\partial\left(a_1 \cdot x^2\right)}{\partial x} \\ & =\frac{\partial a_1}{\partial x} \cdot x^2+a_1 \cdot \frac{\partial\left(x^2\right)}{\partial x} \\ & =\frac{\partial\left(a_0-\eta x^2\right)}{\partial x} \cdot x^2+\left(a_0-\eta x^2\right) \cdot 2 x \\ & =(-\eta \cdot 2 x) \cdot x^2+\left(a_0-\eta x^2\right) \cdot 2 x \\ & =-4 \eta x^3+2 a_0 x \end{aligned} xLout =x(a1x2)=xa1x2+a1x(x2)=x(a0ηx2)x2+(a0ηx2)2x=(η2x)x2+(a0ηx2)2x=4ηx3+2a0x
鉴于上述分析解,让我们使用 TorchOpt 中的 MetaOptimizer 对其进行验证。MetaOptimizer 是我们可微分优化器的主类。它与功能优化器 torchopt.sgdtorchopt.adam 相结合,定义了我们的高级 API torchopt.MetaSGDtorchopt.MetaAdam

首先,定义网络。

from IPython.display import displayimport torch
import torch.nn as nn
import torch.nn.functional as Fimport torchoptclass Net(nn.Module):def __init__(self):super().__init__()self.a = nn.Parameter(torch.tensor(1.0), requires_grad=True)def forward(self, x):return self.a * (x**2)

然后我们声明网络(由 a 参数化)和元参数 x。不要忘记为 x 设置标志 require_grad=True

net = Net()
x = nn.Parameter(torch.tensor(2.0), requires_grad=True)

接下来我们声明元优化器。这里我们展示了定义元优化器的两种等效方法。

optim = torchopt.MetaOptimizer(net, torchopt.sgd(lr=1.0))
optim = torchopt.MetaSGD(net, lr=1.0)

元优化器将网络作为输入并使用方法步骤来更新网络(由a参数化)。最后,我们展示双层流程的工作原理。

inner_loss = net(x)
optim.step(inner_loss)outer_loss = net(x)
outer_loss.backward()
# x.grad = - 4 * lr * x^3 + 2 * a_0 * x
#        = - 4 * 1 * 2^3 + 2 * 1 * 2
#        = -32 + 4
#        = -28
print(f'x.grad = {x.grad!r}')

输出:

x.grad = tensor(-28.)

让我们从与模型无关的元学习算法的核心思想开始。该算法是一种与模型无关的元学习算法,它与任何使用梯度下降训练的模型兼容,并且适用于各种不同的学习问题,包括分类、回归和强化学习。元学习的目标是在各种学习任务上训练模型,以便它仅使用少量训练样本即可解决新的学习任务。

更新规则定义为:

给定微调步骤的学习率 α \alpha α θ \theta θ 应该最小化
L ( θ ) = E T i ∼ p ( T ) [ L T i ( θ i ′ ) ] = E T i ∼ p ( T ) [ L T i ( θ − α ∇ θ L T i ( θ ) ) ] L (\theta)= E _{ T _i \sim p( T )}\left[ L _{ T _i}\left(\theta_i^{\prime}\right)\right]= E _{ T _i \sim p( T )}\left[ L _{ T _i}\left(\theta-\alpha \nabla_\theta L _{ T _i}(\theta)\right)\right] L(θ)=ETip(T)[LTi(θi)]=ETip(T)[LTi(θαθLTi(θ))]
我们首先定义一些与任务、轨迹、状态、动作和迭代相关的参数。

import argparse
from typing import NamedTupleimport gym
import numpy as np
import torch
import torch.optim as optimimport torchopt
from helpers.policy import CategoricalMLPPolicyTASK_NUM = 40
TRAJ_NUM = 20
TRAJ_LEN = 10STATE_DIM = 10
ACTION_DIM = 5GAMMA = 0.99
LAMBDA = 0.95outer_iters = 500
inner_iters = 1

接下来,我们定义一个名为 Traj 的类来表示轨迹,其中包括观察到的状态、采取的操作、采取操作后观察到的状态、获得的奖励以及用于贴现未来奖励的伽玛值。

class Traj(NamedTuple):obs: np.ndarrayacs: np.ndarraynext_obs: np.ndarrayrews: np.ndarraygammas: np.ndarray

评估函数用于评估策略在不同任务上的性能。它使用内部优化器来微调每个任务的策略,然后计算微调前后的奖励。

def evaluate(env, seed, task_num, policy):pre_reward_ls = []post_reward_ls = []inner_opt = torchopt.MetaSGD(policy, lr=0.1)env = gym.make('TabularMDP-v0',num_states=STATE_DIM,num_actions=ACTION_DIM,max_episode_steps=TRAJ_LEN,seed=args.seed,)tasks = env.sample_tasks(num_tasks=task_num)policy_state_dict = torchopt.extract_state_dict(policy)optim_state_dict = torchopt.extract_state_dict(inner_opt)for idx in range(task_num):for _ in range(inner_iters):pre_trajs = sample_traj(env, tasks[idx], policy)inner_loss = a2c_loss(pre_trajs, policy, value_coef=0.5)inner_opt.step(inner_loss)post_trajs = sample_traj(env, tasks[idx], policy)pre_reward_ls.append(np.sum(pre_trajs.rews, axis=0).mean())post_reward_ls.append(np.sum(post_trajs.rews, axis=0).mean())torchopt.recover_state_dict(policy, policy_state_dict)torchopt.recover_state_dict(inner_opt, optim_state_dict)return pre_reward_ls, post_reward_ls

在主函数中,我们初始化环境、策略和优化器。策略是一个简单的 MLP,它输出动作的分类分布。内部优化器用于在微调阶段更新策略参数,外部优化器用于在元训练阶段更新策略参数。性能通过微调前后的奖励来评估。每次外部迭代都会记录并打印训练过程。

def main(args):torch.manual_seed(args.seed)torch.cuda.manual_seed_all(args.seed)env = gym.make('TabularMDP-v0',num_states=STATE_DIM,num_actions=ACTION_DIM,max_episode_steps=TRAJ_LEN,seed=args.seed,)policy = CategoricalMLPPolicy(input_size=STATE_DIM, output_size=ACTION_DIM)inner_opt = torchopt.MetaSGD(policy, lr=0.1)outer_opt = optim.Adam(policy.parameters(), lr=1e-3)train_pre_reward = []train_post_reward = []test_pre_reward = []test_post_reward = []for i in range(outer_iters):tasks = env.sample_tasks(num_tasks=TASK_NUM)train_pre_reward_ls = []train_post_reward_ls = []outer_opt.zero_grad()policy_state_dict = torchopt.extract_state_dict(policy)optim_state_dict = torchopt.extract_state_dict(inner_opt)for idx in range(TASK_NUM):for _ in range(inner_iters):pre_trajs = sample_traj(env, tasks[idx], policy)inner_loss = a2c_loss(pre_trajs, policy, value_coef=0.5)inner_opt.step(inner_loss)post_trajs = sample_traj(env, tasks[idx], policy)outer_loss = a2c_loss(post_trajs, policy, value_coef=0.5)outer_loss.backward()torchopt.recover_state_dict(policy, policy_state_dict)torchopt.recover_state_dict(inner_opt, optim_state_dict)# Loggingtrain_pre_reward_ls.append(np.sum(pre_trajs.rews, axis=0).mean())train_post_reward_ls.append(np.sum(post_trajs.rews, axis=0).mean())outer_opt.step()test_pre_reward_ls, test_post_reward_ls = evaluate(env, args.seed, TASK_NUM, policy)train_pre_reward.append(sum(train_pre_reward_ls) / TASK_NUM)train_post_reward.append(sum(train_post_reward_ls) / TASK_NUM)test_pre_reward.append(sum(test_pre_reward_ls) / TASK_NUM)test_post_reward.append(sum(test_post_reward_ls) / TASK_NUM)print('Train_iters', i)print('train_pre_reward', sum(train_pre_reward_ls) / TASK_NUM)print('train_post_reward', sum(train_post_reward_ls) / TASK_NUM)print('test_pre_reward', sum(test_pre_reward_ls) / TASK_NUM)print('test_post_reward', sum(test_post_reward_ls) / TASK_NUM)

👉参阅、更新:计算思维 | 亚图跨际

这篇关于Python(PyTorch)物理变化可微分神经算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1090875

相关文章

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

poj 3974 and hdu 3068 最长回文串的O(n)解法(Manacher算法)

求一段字符串中的最长回文串。 因为数据量比较大,用原来的O(n^2)会爆。 小白上的O(n^2)解法代码:TLE啦~ #include<stdio.h>#include<string.h>const int Maxn = 1000000;char s[Maxn];int main(){char e[] = {"END"};while(scanf("%s", s) != EO

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费