预处理tencent词向量

2024-03-11 06:18
文章标签 预处理 向量 tencent

本文主要是介绍预处理tencent词向量,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

#数据预处理,去除数字,只保留中文
def load_tencent_word_embedding(input_file, output_file):n = 0with open('tencent.txt', 'a', encoding='utf-8', errors='ignore') as w_f:with open('Tencent_AILab_ChineseEmbedding.txt', 'r', encoding='utf-8', errors='ignore')as f:for i in tqdm(range(8824330)):# 原始data = f.readline()a = data.split()#listif len(a) == 201:if not a[0].isdigit():n = n + 1w_f.write(data)print('total lines:',n)  # 8748463#获取单个字词向量
def process_tencent_embedding_unigram(input_file, output_file):n = 0with open(output_file, 'a', encoding='utf-8') as g:with open(input_file, 'r', encoding='utf-8') as f:for i in tqdm(range(8748463)):data = f.readline()a = data.split()if i == 0:g.write(data)else:if len(a[0]) == 1:n += 1g.write(data)print('total unigram:', n)#获取一个词(两个字)的词向量
def process_tencent_embedding_bigrams(input_file, output_file):n = 0with open(output_file, 'a', encoding='utf-8') as g:with open(input_file, 'r', encoding='utf-8') as f:for i in tqdm(range(8748463)):data = f.readline()a = data.split()if i == 0:g.write(data)else:if len(a[0]) == 2:n += 1g.write(data)print('total bigrams:',n)if __name__ == '__main__':input_file = 'Tencent_AILab_ChineseEmbedding'output_file = 'tencent.txt'load_tencent_word_embedding(input_file, output_file)

这篇关于预处理tencent词向量的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/796914

相关文章

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

动手学深度学习【数据操作+数据预处理】

import osos.makedirs(os.path.join('.', 'data'), exist_ok=True)data_file = os.path.join('.', 'data', 'house_tiny.csv')with open(data_file, 'w') as f:f.write('NumRooms,Alley,Price\n') # 列名f.write('NA

Vector3 三维向量

Vector3 三维向量 Struct Representation of 3D vectors and points. 表示3D的向量和点。 This structure is used throughout Unity to pass 3D positions and directions around. It also contains functions for doin

8. 自然语言处理中的深度学习:从词向量到BERT

引言 深度学习在自然语言处理(NLP)领域的应用极大地推动了语言理解和生成技术的发展。通过从词向量到预训练模型(如BERT)的演进,NLP技术在机器翻译、情感分析、问答系统等任务中取得了显著成果。本篇博文将探讨深度学习在NLP中的核心技术,包括词向量、序列模型(如RNN、LSTM),以及BERT等预训练模型的崛起及其实际应用。 1. 词向量的生成与应用 词向量(Word Embedding)

用Python实现时间序列模型实战——Day 14: 向量自回归模型 (VAR) 与向量误差修正模型 (VECM)

一、学习内容 1. 向量自回归模型 (VAR) 的基本概念与应用 向量自回归模型 (VAR) 是多元时间序列分析中的一种模型,用于捕捉多个变量之间的相互依赖关系。与单变量自回归模型不同,VAR 模型将多个时间序列作为向量输入,同时对这些变量进行回归分析。 VAR 模型的一般形式为: 其中: ​ 是时间  的变量向量。 是常数向量。​ 是每个时间滞后的回归系数矩阵。​ 是误差项向量,假

【动手学深度学习】04 数据操作 + 数据预处理(个人向笔记)

数据操作 N维数组是机器学习和神经网络的主要数据结构其中 2-d 矩阵中每一行表示每一行表示一个样本 当维度来到三维的时候则可以表示成一张图片,再加一维就可以变成多张图片,再加一维则可以变成一个视频 访问元素 冒号表示从冒号左边的元素到冒号右边的前一个元素(开区间),其中如果左边为空,那么表示从第一个开始,如果右边为空,那么表示访问到最后一个,如果两边都为空,则表示全部访问其中一行中我们指

数据预处理与协同过滤推荐算法——从数据清洗到个性化电影推荐

推荐系统在现代应用中占据了重要地位,尤其在电影、音乐等个性化内容推荐中广泛使用。本文将介绍如何使用数据预处理、特征工程以及多种推荐算法(包括协同过滤、基于内容的推荐、混合推荐等)来实现电影推荐系统。通过Pandas、Scikit-learn、TensorFlow等工具,我们将展示如何从数据清洗开始,逐步实现各类推荐算法。  完整项目代码: 基于协同过滤的电影推荐系统 一、数据预处

CF Bayan 2015 Contest Warm Up A.(模拟+预处理)

A. Bayan Bus time limit per test 2 seconds memory limit per test 256 megabytes input standard input output standard output 题目链接: http://codeforces.com/contest/475/problem/A The fi

HLJUOJ1003(预处理)

1003: Time Time Limit: 1 Sec   Memory Limit: 128 MB Submit: 27   Solved: 13 [ Submit][ Status][ Web Board] Description Digital clock use 4 digits to express time, each digit is described by

利用向量积(叉积)计算三角形的面积和多边形的面积(hdu2036)

开始撸计算几何题目了。。。。。。。 预备知识:叉乘求多边形面积 参考证明资料: 公式证明: http://www.cnblogs.com/xiexinxinlove/p/3708147.html 高中知识: http://wenku.baidu.com/view/867e6edfad51f01dc281f11a.html #include<stdio.h>#inclu