word2sequence 把字符串转换数字编码

2024-05-26 15:32

本文主要是介绍word2sequence 把字符串转换数字编码,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 地址:http://ai.stanford.edu/~amaas/data/sentiment/,这是一份包含了5万条流行电影的评论数据,其中训练集25000条,测试集25000条。

1.准备数据

dataset.py

'''
准备数据
'''
from torch.utils.data import DataLoader,Dataset
import torch
import utils
import os
import config
class ImdbDataset(Dataset):
def __init__(self,train = True):
data_path = r"H:\073-nlp自然语言处理-v5.bt38[周大伟]\073-nlp自然语言处理-v5.bt38[周大伟]\第四天\代码\data\aclImdb_v1\aclImdb"
super(ImdbDataset,self).__init__()
data_path += r"\train" if train else r"\test"
self.total_path = []
for temp_path in [r"\pos",r"\neg"]:
cur_path = data_path + temp_path
self.total_path +=[os.path.join(cur_path,i) for i in os.listdir(cur_path) if i.endswith(".txt")]
def __getitem__(self, idx):
file = self.total_path[idx]
review = utils.tokenlize(open(file,encoding='utf-8').read())
label = int(file.split("_")[-1].split(".")[0])
# label = 0 if label <5 else 1
return review,label
def __len__(self):
return len(self.total_path)
# def collate_fn(batch):
# 	#batch是list,其中是一个一个元组,每个元组是dataset中__getitem__的结果
#     batch = list(zip(*batch))
#     labes = torch.tensor(batch[1],dtype=torch.int32)
#     texts = batch[0]
#     del batch
#     return labes,texts
def collate_fn(batch):
"""
对batch数据进行处理
:param batch: [一个getitem的结果,getitem的结果,getitem的结果]
:return: 元组
"""
reviews,labels = zip(*batch)
reviews = torch.LongTensor([config.ws.transform(i,max_len=config.max_len) for i in reviews])
labels = torch.LongTensor(labels)
return reviews,labels
def get_dataloader(train=True):
dataset = ImdbDataset(train)
batch_size = config.train_batch_size if train else config.test_batch_size
return DataLoader(dataset,batch_size=batch_size,shuffle=True,collate_fn=collate_fn)
if __name__ == '__main__':
dataset = ImdbDataset()
dataloader = DataLoader(dataset=dataset, batch_size=2, shuffle=True,collate_fn=collate_fn)
# 3. 观察数据输出结果
for idx, (label, text) in enumerate(dataloader):
print("idx:", idx)
print("table:", label)
print("text:", text)
break

2.conf.py 文件

"""
配置文件
"""
import pickle
train_batch_size = 512
test_batch_size = 500
ws = pickle.load(open("./model/ws.pkl","rb"))
max_len = 80

3.utils.py分词文件

import re
def tokenlize(sentence):
'''
进行文本分词
:param sentence: 
:return: 
'''
fileters = ['!', '"', '#', '$', '%', '&', '\(', '\)', '\*', '\+', ',', '-', '\.', '/', ':', ';', '<', '=', '>',
'\?', '@'
, '\[', '\\', '\]', '^', '_', '`', '\{', '\|', '\}', '~', '\t', '\n', '\x97', '\x96', '”', '“', ]
sentence = sentence.lower()
sentence = re.sub("<br />"," ",sentence)
sentence = re.sub("|".join(fileters)," ",sentence)
# result = sentence.split(" ")
#去除空字符串
result = [i for i in sentence.split(" ") if len(i)>0]
return result

4.word2sequence.py   句子中的词转换成数字编码

'''
文本序列化
'''
class Word2Sequence:
UNK_TAG = "<UNK>"
PAD_TAG = "<PAD>"
UNK = 0
PAD = 1
def __init__(self):
self.dict = {
#保存词语和对应的数字
self.UNK_TAG:self.UNK,
self.PAD_TAG:self.PAD
}
self.count = {} #统计词频的
def fit(self,sentence):
'''
接受句子,统计词频
:param sentence: 
:return: 
'''
for word in sentence:
self.count[word] = self.count.get(word,0) + 1
def build_vocab(self,min_count = 1,max_count = None,max_feature = None):
'''
根据条件构造 词典
:param min_count: 最小词频
:param max_count: 最大词频
:param max_feature: 最大词语数,这个参数会排序
:return: 
'''
if min_count is not None:
self.count = {word:count for word,count in self.count.items() if count >= min_count}
if max_count is not None:
self.count = {word:count for word,count in self.count.items() if count <= max_count}
if max_feature is not None:
self.count = dict(sorted(self.count.items(),lambda x:x[-1],reverse=True)[:max_feature])
for word in self.count.keys():
self.dict[word] = len(self.dict)  #获取每个词及生成每个词对应的编号
#字典翻转,键→值,值←键
self.inverse_dict = dict(zip(self.dict.values(),self.dict.keys()))
def transform(self,sentence,max_len = None):
'''
把句子转化为数字序列
:param sentense: [str,str,,,,,,,,,,]
:return: [num,num,num,,,,,,,]
'''
if len(sentence) > max_len:
sentence = sentence[:max_len]
else:
sentence = sentence + [self.PAD_TAG]*(max_len-len(sentence))
return [self.dict.get(i,0) for i in sentence]
def inverse_transform(self,incides):
'''
把数字序列转化为字符
:param incides: [num,num,num,,,,,,,,]
:return: [str,str,str,,,,,,,]
'''
return [self.inverse_dict.get(i,"<UNK>") for i in incides]
if __name__ == '__main__':
sentences = [['今天','天气','很','好'],
['今天','去','吃','什么']]
ws = Word2Sequence()
for sentence in sentences:
ws.fit(sentence)
ws.build_vocab()
print(ws.dict)
ret = ws.transform(["好","好","好","好","好","好","好","热","呀"],max_len=20)
print(ret)
ret = ws.inverse_transform(ret)
print(ret)

5. main主文件,把文件中的词转换成数字编码并保存

'''
文本序列化及保存模型
'''
from word_sequence import Word2Sequence
from dataset import get_dataloader
import pickle
from tqdm import tqdm
if __name__ == '__main__':
ws = Word2Sequence()
dl_train = get_dataloader(True)
dl_test = get_dataloader(False)
for label,reviews in tqdm(dl_train,total=len(dl_train)):
for review in reviews:
ws.fit(review)
for label,reviews in tqdm(dl_test,total=len(dl_train)):
for review in reviews:
ws.fit(review)
ws.build_vocab()
pickle.dump(ws,open("./model/ws.pkl","wb"))

这篇关于word2sequence 把字符串转换数字编码的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1004861

相关文章

C#数据结构之字符串(string)详解

《C#数据结构之字符串(string)详解》:本文主要介绍C#数据结构之字符串(string),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录转义字符序列字符串的创建字符串的声明null字符串与空字符串重复单字符字符串的构造字符串的属性和常用方法属性常用方法总结摘

Java实现时间与字符串互相转换详解

《Java实现时间与字符串互相转换详解》这篇文章主要为大家详细介绍了Java中实现时间与字符串互相转换的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、日期格式化为字符串(一)使用预定义格式(二)自定义格式二、字符串解析为日期(一)解析ISO格式字符串(二)解析自定义

在java中如何将inputStream对象转换为File对象(不生成本地文件)

《在java中如何将inputStream对象转换为File对象(不生成本地文件)》:本文主要介绍在java中如何将inputStream对象转换为File对象(不生成本地文件),具有很好的参考价... 目录需求说明问题解决总结需求说明在后端中通过POI生成Excel文件流,将输出流(outputStre

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤

利用Python开发Markdown表格结构转换为Excel工具

《利用Python开发Markdown表格结构转换为Excel工具》在数据管理和文档编写过程中,我们经常使用Markdown来记录表格数据,但它没有Excel使用方便,所以本文将使用Python编写一... 目录1.完整代码2. 项目概述3. 代码解析3.1 依赖库3.2 GUI 设计3.3 解析 Mark

C语言中的数据类型强制转换

《C语言中的数据类型强制转换》:本文主要介绍C语言中的数据类型强制转换方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C语言数据类型强制转换自动转换强制转换类型总结C语言数据类型强制转换强制类型转换:是通过类型转换运算来实现的,主要的数据类型转换分为自动转换

python中字符串拼接的几种方法及优缺点对比详解

《python中字符串拼接的几种方法及优缺点对比详解》在Python中,字符串拼接是常见的操作,Python提供了多种方法来拼接字符串,每种方法有其优缺点和适用场景,以下是几种常见的字符串拼接方法,需... 目录1. 使用 + 运算符示例:优缺点:2. 使用&nbsjsp;join() 方法示例:优缺点:3

java字符串数字补齐位数详解

《java字符串数字补齐位数详解》:本文主要介绍java字符串数字补齐位数,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Java字符串数字补齐位数一、使用String.format()方法二、Apache Commons Lang库方法三、Java 11+的St

C++字符串提取和分割的多种方法

《C++字符串提取和分割的多种方法》在C++编程中,字符串处理是一个常见的任务,尤其是在需要从字符串中提取特定数据时,本文将详细探讨如何使用C++标准库中的工具来提取和分割字符串,并分析不同方法的适用... 目录1. 字符串提取的基本方法1.1 使用 std::istringstream 和 >> 操作符示

Java实现XML与JSON的互相转换详解

《Java实现XML与JSON的互相转换详解》这篇文章主要为大家详细介绍了如何使用Java实现XML与JSON的互相转换,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. XML转jsON1.1 代码目的1.2 代码实现2. JSON转XML3. JSON转XML并输出成指定的