nlp基础-文本预处理及循环神经网络

2024-06-24 03:52

本文主要是介绍nlp基础-文本预处理及循环神经网络,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1 认识文本预处理

  • 1 文本预处理及其作用

    • 定义:文本送给模型之前,提前要做的工作

    • 作用:指导模型超参数的选择 、提升模型的评估指标

    • 举个例子:

      • 思路常识,打造成 X Y
      • 关于Y:10分类标签是否均衡
      • 关于X:数据有没有脏数据 数据长度(512)样本不够!
    • 文本预处理 工作 结束 的标志:准备出来X和Y 能送给模型

  • 2 文本预处理的主要环节

    • 1 文本处理的基本方法

      • 分词:按照一定规则对文本重新划分,进行分词

      • 词性标注:把文本序列标注出来动词、名词、形容词这个过程词性标注

      • 命名实体识别:把专有名词(人名、地名、机构名)给识别出来。

        • 比如:对话系统要进行命名实体识别,对语义进理解。
    • 2 文本张量表示方法: 就是把我们的单词转成数值化的数据 张三【88,87, 86 ,85, 84】文本数值化、数值张量化

      • one-hot编码: low 稀疏词向量表示

      • Word2vec:稠密词向量表示

      • Word Embedding:稠密词向量表示

    • 3 文本语料的数据分析:就是对数据的x y进行分析

      • 标签数量分布:对y:十分类:类别是不是均衡

      • 句子长度分布:对x:文本长度有的是100个长度,有的是200,

      • 词频统计与关键词词云:形容词词云

    • 4 文本特征处理:我 爱 北京 天安门

      • 添加n-gram特征 【101,102,103,104,105】:105代表【北京 天安门】相邻共现,可以作为一个新的特征加入到文本序列中;增强模型对文本序列特征抽取

      • 文本长度规范:有些模型送入的数据长度不能超过512

    • 5 数据增强方法: 数据不够,看如何增加语料

      • 1 回译数据增强法:中文–>韩语 -->葡萄牙–>中文,新增了一条样本
  • 3 思考题,文本处理的主要环节中,哪一些环节是第一个要做的?

    • 一般情况,文本语料的数据分析是程序员首先要做的工作。

2 文本处理的基本方法

  • 分词定义和作用:

    • 定义: 将连续字符按照一定规则重新排序的过程
    • 作用: 理解语义的最小单元!
    • 为什么要分词:中文没有明显的分解符 英文天然空格是分解符
      • 对中文分词来讲:不断寻找分解符的过程
  • 流行分词工具jieba

    • 支持多种分词模式(三种模式)
      • 精确模式:
      • 全模式:
      • 搜索引擎模式:
    • 支持中文繁体分词
    • 支持用户自定义词典
      • 自定义字典的格式
  • 结巴分词编程api

    • 三种模式

      jieba.lcut(content, cut_all=False) 精确模式
      jieba.lcut(content, cut_all=True) 全模式
      jieba.cut_for_search(content) 搜素引擎模式
      
    • 中文繁体分词

      • jieba.lcut(content, cut_all=False) 精确模式
    • 用户自定义词典

      • jieba.load_userdict('./userdict.txt')
        mydata2 = jieba.lcut(sentence)
        
  • 什么是命名实体识别 (NER)

    • 命名实体:指人名地名机构名等专有名字
    • 命名实体识别:对一句话中的专有名词进行识别(NER - Named Entity Recognition)
  • 词性标注

    • 词性定义: 动词名词形容词
    • 词性标注定义:对文本先分词,然后再标注词性
      • 词向标注也是对此的一种分类方法
        • 单词级别的分类

3 文本张量表示方法

  • 什么是文本张量表示
    • 定义:
      • 把词表示成向量的的形式,也就是词向量,一句话表示成词向量矩阵。这个过程就是文本张量表示。
    • 作用:
      • 方便输入到计算机中
    • 文本张量的表示方法:三种
      • one-hot
      • word2vec
      • wordenbedding

  • 什么是one-hot词向量表示

    • 定义: 有一个位置是1 其他全部是零

    • 编程api

      • mytokenizer.fit_on_texts(vocabs) # 生成两个表 word2idx idx2word  
        zero_list = [0] * len(vocabs)
        zero_list[idx] = 1
        joblib.dump(mytokenizer, './mytokenizer')
        mytokenizer = joblib.load('./mytokenizer')
        # oov单词问题
        
    • one-hot编码的优劣势:

      • 优点: 简单
      • 缺点: 割裂了词和词之间的关系 浪费空间、内存
        • 稀疏词向量表示
  • 什么是word2vec

    • word2vec概念

      • 1 也是一种词向量的表示方法 (把词表示成向量 ;一句话表示成向量矩阵)
      • 2 使用深度学习的方法 也就是使用深度学习网络的方法
        • 使用深度学习网络的参数 来表示词向量
        • 深度学习网络(模型)入门的重要点:区分数据和参数
        • word2vec的思想使用:深度神经网络的参数 来充当词向量
    • CBOW(Continuous bag of words)模式:

    • skipgram词向量训练模型

  • 使用fasttext工具实现word2vec的训练和使用

    • 第一步: 获取训练数据

      • wikifil.pl 文件处理脚本来清除XML/HTML格式的内容
        1. 下载语料库, wget -http://mattmahoney.net/dc/enwik9.zip
        2. 解压语料库, unzip enwik9.zip
        3. 处理语料库, perl wikifil.pl enwik9 > fil9
        4. head -n enwik9 查看多少行
        5. head -c 200 fil9_3 查看前200个单词
        
    • 第二步: 训练词向量

      • 词向量安装

        • 源码安装

        • import fasttext
          model = fasttext.train_unsupervised('data/fil9')
          model.get_word_vector("the")  # 获取词向量
          如何查看fasttext源码安装的路径
          pip freeze | grep fasttext
          > fasttext @ file:///Users/bombing/.virtualenvs/nlp-py37-env/fastText
          # 思考题:获取词向量的流程?
          # 思考题:是无监督学习吗?
          
    • 第三步: 模型超参数设定

      • dim: 默认为100
      • epoch: 默认为5
      • 学习率lr: 默认为0.05,
      • thread: 默认为12个线程
    • 第四步: 模型效果检验

      • model.get_nearest_neighbors(‘music’)
    • 第五步: 模型的保存与重加载

      • mymodel.save_model(“./data/fil9.bin”)

      • mymodel = fasttext.load_model(‘./data/fil9.bin’)

  • word embedding(词嵌入)

    • 广义的word embedding: 用深度神经网络来训练我们的词向量
      • 神经网络是浅层 – word2vec
      • 大型-----wordembedding
    • 狭义的word embedding
      • 神经网络的某一个层 nn.Eembedding

1.1 RNN模型

1 有关seq2seq架构重要场景

在这里插入图片描述

2 有关rnn的9个参数重要场景

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3 有关隐藏层个数理解重要场景

在这里插入图片描述
在这里插入图片描述

4 场景:每个时间步都是用rnn的模型权重参数在这里插入图片描述

1.2 LSTM(长短时记忆网络)

  • 门如何理解
    • 缩放系数:对一堆数据乘上一个门,相当于给一堆数据乘上一个缩放系数
    • 对输入数据进行加权!

1 场景:门的综合图在这里插入图片描述

2 场景:遗忘门和输入门在这里插入图片描述

3 场景:细胞状态和输入门在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

1.4 GRU模型

1 场景:门的综合图

在这里插入图片描述

2场景 矩阵参数数量对比

在这里插入图片描述

3 场景:有关批量的给RNN送数据

重要场景

在这里插入图片描述

这篇关于nlp基础-文本预处理及循环神经网络的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1089098

相关文章

RedHat运维-Linux文本操作基础-AWK进阶

你不用整理,跟着敲一遍,有个印象,然后把它保存到本地,以后要用再去看,如果有了新东西,你自个再添加。这是我参考牛客上的shell编程专项题,只不过换成了问答的方式而已。不用背,就算是我自己亲自敲,我现在好多也记不住。 1. 输出nowcoder.txt文件第5行的内容 2. 输出nowcoder.txt文件第6行的内容 3. 输出nowcoder.txt文件第7行的内容 4. 输出nowcode

Vim使用基础篇

本文内容大部分来自 vimtutor,自带的教程的总结。在终端输入vimtutor 即可进入教程。 先总结一下,然后再分别介绍正常模式,插入模式,和可视模式三种模式下的命令。 目录 看完以后的汇总 1.正常模式(Normal模式) 1.移动光标 2.删除 3.【:】输入符 4.撤销 5.替换 6.重复命令【. ; ,】 7.复制粘贴 8.缩进 2.插入模式 INSERT

零基础STM32单片机编程入门(一)初识STM32单片机

文章目录 一.概要二.单片机型号命名规则三.STM32F103系统架构四.STM32F103C8T6单片机启动流程五.STM32F103C8T6单片机主要外设资源六.编程过程中芯片数据手册的作用1.单片机外设资源情况2.STM32单片机内部框图3.STM32单片机管脚图4.STM32单片机每个管脚可配功能5.单片机功耗数据6.FALSH编程时间,擦写次数7.I/O高低电平电压表格8.外设接口

ps基础入门

1.基础      1.1新建文件      1.2创建指定形状      1.4移动工具          1.41移动画布中的任意元素          1.42移动画布          1.43修改画布大小          1.44修改图像大小      1.5框选工具      1.6矩形工具      1.7图层          1.71图层颜色修改          1

人工智能机器学习算法总结神经网络算法(前向及反向传播)

1.定义,意义和优缺点 定义: 神经网络算法是一种模仿人类大脑神经元之间连接方式的机器学习算法。通过多层神经元的组合和激活函数的非线性转换,神经网络能够学习数据的特征和模式,实现对复杂数据的建模和预测。(我们可以借助人类的神经元模型来更好的帮助我们理解该算法的本质,不过这里需要说明的是,虽然名字是神经网络,并且结构等等也是借鉴了神经网络,但其原型以及算法本质上还和生物层面的神经网络运行原理存在

python实现最简单循环神经网络(RNNs)

Recurrent Neural Networks(RNNs) 的模型: 上图中红色部分是输入向量。文本、单词、数据都是输入,在网络里都以向量的形式进行表示。 绿色部分是隐藏向量。是加工处理过程。 蓝色部分是输出向量。 python代码表示如下: rnn = RNN()y = rnn.step(x) # x为输入向量,y为输出向量 RNNs神经网络由神经元组成, python

基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别

转发来源:https://swift.ctolib.com/ooooverflow-chinese-ocr.html chinese-ocr 基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别 环境部署 sh setup.sh 使用环境: python 3.6 + tensorflow 1.10 +pytorch 0.4.1 注:CPU环境

[FPGA][基础模块]跨时钟域传播脉冲信号

clk_a 周期为10ns clk_b 周期为34ns 代码: module pulse(input clk_a,input clk_b,input signal_a,output reg signal_b);reg [4:0] signal_a_widen_maker = 0;reg signal_a_widen;always @(posedge clk_a)if(signal_a)

00 - React 基础

1. React 基础 安装react指令 可参考: 官网官网使用教程 如: npx create-react-app 项目名如:npx create-react-app react-redux-pro JSX JSX 是一种 JavaScript 的语法扩展,类似于 XML 或 HTML,允许我们在 JavaScript 代码中编写 HTML。 const element =

Linux文本三剑客sed

sed和awk grep就是查找文本当中的内容,最强大的功能就是使用扩展正则表达式 sed sed是一种流编辑器,一次处理一行内容。 如果只是展示,会放在缓冲区(模式空间),展示结束后,会从模式空间把结果删除 一行行处理,处理完当前行,才会处理下一行。直到文件的末尾。 sed的命令格式和操作选项: sed -e '操作符 ' -e '操作符' 文件1 文件2 -e表示可以跟多个操作