pack_padded_sequence and pad_packed_sequence

2023-10-17 22:50
文章标签 sequence pad packed pack padded

本文主要是介绍pack_padded_sequence and pad_packed_sequence,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

此文章为阐述pytorch中pack_padded_sequence 和pad_packed_sequence的原理

在变长序列文本中,一个batch中的各样本长度可能不一致,在使用RNN模型时,需要填充至统一长度,被填充的位置实际无意义。我们通常取最后一个时刻的输出作为最终输出,但是填充后的最后时刻并非是原样本的最后时刻。为了获取每个样本真实的最后时刻位置输出,便有了pack_padded_sequence 和pad_packed_sequence。

如下图,句子yes被填充4个pad,为了获取句子的句向量,取最后时刻的输出,即最后一个pad位置的输出。但最自然的想法是获取yes位置的输出作为句向量。
图 1

  1. pack_padded_sequence
    pack可理解为压缩,将一个batch中的样本按列压缩为一个序列。例如一个batch的样本为:
    [[1, 2, 3, 4],
    [2, 3, 5],
    [6,7],
    [8]]
    压缩后为:
    [[1, 2, 6, 8],
    [2, 3, 7],
    [3, 5],
    [4]]
    每个样本的第一列元素组成第一个列表,依次类推。
    这种形式和压缩前并无区别,为此,我们将序列变为一个list,即:
    [1, 2, 6, 8, 2, 3, 7, 3, 5, 4]
    变成这样后,为了方便还原成原形式,还记录原来每个list的长度:
    size = [4, 3, 2, 1]
    所以经过pack_padded_sequence后,我们得到两个列表:
    data=[1, 2, 6, 8, 2, 3, 7, 3, 5, 4]和size=[4, 3, 2, 1]
    在输入RNN时,按照[4, 3, 2, 1]的顺序,第一次输入data中4个值,然后输入3个值,以此类推。
    完整示例图如下:
    在这里插入图片描述

  2. pad_packed_sequence
    和pack_padded_sequence相反,该函数把压缩的序列再填充回来。默认填充为0。
    [[1, 2, 3, 4],
    [2, 3, 5, 0],
    [6, 7, 0, 0],
    [8, 0, 0 ,0]]
    实际值并非是原值,因为经过RNN后,输出值其维度和大小均与原值不同,此处只是为了方便理解函数,直接在原值中填充0。实际效果可看下面代码

  3. 代码

import torch
import torch.nn as nn
from torch.autograd import Variable
from torch.nn import utilsbatch_size = 4
max_length = 4
hidden_size = 2
n_layers = 1# 实际上需要先按长度由大到小排好序,此处已排序好,并用0 pad为同一长度
input = torch.FloatTensor([[1, 2, 3, 4],[2, 3, 50],[6,700],[8000]]).resize_(4, 4, 1)
input = Variable(input)
seq_len = [43, 21]  # 每个样本的长度pack = utils.rnn.pack_padded_sequence(input, seq_len, batch_first=True)
print(pack)  # 输出压缩后的结果rnn = nn.RNN(1, hidden_size, n_layers, batch_first=True)out, _ = rnn(pack)
print(out)  # 输出RNN输出结果unpacked = utils.rnn.pad_packed_sequence(out, batch_first=True)
print(unpacked)  # 输出扩充后的结果

输出压缩后的结果:
在这里插入图片描述

输出RNN输出结果:
在这里插入图片描述
因为代码中设置hidden_size=2,所以每个值输出为两个值,例如原值中[1.]输出结果为第一行的[0.7177, 0.2232]

输出扩充后的结果:
在这里插入图片描述

这篇关于pack_padded_sequence and pad_packed_sequence的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/228475

相关文章

浙大数据结构:02-线性结构4 Pop Sequence

这道题我们采用数组来模拟堆栈和队列。 简单说一下大致思路,我们用栈来存1234.....,队列来存输入的一组数据,栈与队列进行匹配,相同就pop 机翻 1、条件准备 stk是栈,que是队列。 tt指向的是栈中下标,front指向队头,rear指向队尾。 初始化栈顶为0,队头为0,队尾为-1 #include<iostream>using namespace std;#defi

【UVA】1626-Brackets sequence(动态规划)

一道算是比较难理解的动规。 状态转移分2个: (用d[i][j]表示在i~j内最少需要添加几个括号,保持平衡) 1.如果s[i]和s[j]是一对括号,那么d[i][j] = d[i + 1][j - 1] 2.否则的话 d[i][j] = min(d[i][k],[k + 1][j]); 边界是d[i + 1][i] = 0; d[i][i] = 1; 13993644 162

【UVA】10534 - Wavio Sequence(LIS最长上升子序列)

这题一看10000的数据量就知道必须用nlog(n)的时间复杂度。 所以特意去看了最长上升子序列的nlog(n)的算法。 如果有2个位置,该位置上的元素为A[i]和A[j],并且他们满足以下条件: 1.dp[i] = dp[j]    (dp[x]代表以x结尾的最长上升子序列长度) 2.A[i] < A[j] 3.i < j 那么毫无疑问,选择dp[i] 一定优于选择dp[j] 那么

2015年多校联合训练第一场OO’s Sequence(hdu5288)

题意:给定一个长度为n的序列,规定f(l,r)是对于l,r范围内的某个数字a[i],都不能找到一个对应的j使得a[i]%a[j]=0,那么l,r内有多少个i,f(l,r)就是几。问所有f(l,r)的总和是多少。 公式中给出的区间,也就是所有存在的区间。 思路:直接枚举每一个数字,对于这个数字,如果这个数字是合法的i,那么向左能扩展的最大长度是多少,向右能扩展的最大长度是多少,那么i为合法的情况

NYOJ 763 Vawio Sequence

OJ题目 : 戳这里~ 描述 Vawio Sequence is very funny,it is a sequence of integers. It has some interesting properties. ·   Vawio is of odd length i.e. L = 2*n + 1. ·  The first (n+1) integers of  Vawio s

python中使用FormatDataLibsvm转为txt文件后报错illegal multibyte sequence

‘gbk’ codec can’t decode byte 0xff in position 0: illegal multibyte sequence 这个报错是因为编码不对,正确的编码是ANSI编码,txt文件打开后另存为可以看到当前的文本文档编码 但是excel不能直接保存ANSI编码的txt文件 所以不能直接保存为ANSI编码 有两种解决办法 1.新建一个txt文件(新建的txt文件

[LeetCode] 128. Longest Consecutive Sequence

题:https://leetcode.com/problems/longest-consecutive-sequence/description/ 题目 Given an unsorted array of integers, find the length of the longest consecutive elements sequence. Your algorithm should

【ZOJ】3889 Making Sequence【构造】

传送门:【ZOJ】3889 Making Sequence 根据题意构造即可。ZOJ月赛我们抢的第二个FBwww my  code: my~~code: #include <bits/stdc++.h>using namespace std ;typedef unsigned long long ULL ;const int MAXN = 205 ;ULL n , a , b , s ,

VirtualBox安装VirtualBox Extension Pack,支持USB No USB devices connected after upgrade

安装步骤及出现问题解决No USB devices connected after upgrade: 一、本要主机ubuntu14.04,安装virtualbox,支持usb设置步骤: 1.安装VirtualBox. 可以从https://www.virtualbox.org官方站点下载或者从软件中心。 2.在VirtualBox里安装Windows; 3.为USB2.0,你需要

CodeForces 487C Prefix Product Sequence

题意: 构造一个1~n的排列  使得n个前缀积%n是一个0~n-1的排列 思路: 首先确定n一定放最后  要不然会有%n会有多个0  这时n-1位置的前缀积为(n-1)! 接着讨论n  n为合数时只有n=4有解  因为如果n为合数一定可以拆成p*q的形式  明显pq|(n-1)! 然后构造ai=(i+1)*inv[i]  因为(i+1)*inv[i] == (j+1)*inv[j]时一