keras.preprocessing.text.Tokenizer

2023-11-07 16:20

文章标签 keras text preprocessing tokenizer

本文主要是介绍keras.preprocessing.text.Tokenizer，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

keras.preprocessing.text.Tokenizer

Tokenizer 是一种用于自然语言处理的类，其具体的功能是把一个词（中文单个字或者词组认为是一个词）转化为一个正整数，于是一个文本就变成了一个序列。这里改类方具体如图所示：
类方法
具体的代码用例如下所示：

from keras.preprocessing import text
#facts, accu_label, article_label, imprison_label=load_data()
somestr = ['ha ha gua angry','howa ha gua excited naive']tok=text.Tokenizer() #初始化标注器
tok.fit_on_texts(somestr) #学习出文本的字典
word_index = tok.word_index#查看对应的单词和数字的映射关系dict
print(word_index)
sequences = tok.texts_to_sequences(somestr) #通过texts_to_sequences 这个dict可以将每个string的每个词转成数字
print(sequences)

输出的结果如下：


{'ha': 1, 'gua': 2, 'angry': 3, 'howa': 4, 'excited': 5, 'naive': 6}
[[1, 1, 2, 3], [4, 1, 2, 5, 6]]

如果处理的文本为中文：

text =  ['符于香 违反 群众 纪律，利用 职务 便利。']
{'符于香': 1, '违反': 2, '群众': 3, '纪律，利用': 4, '职务': 5, '便利。': 6}
[[1, 2, 3, 4, 5, 6]]

可见texts_to_sequences的作用是将已经分好的词语变为用整数表示的序列。

这篇关于keras.preprocessing.text.Tokenizer的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/364817。 23002807@qq.com

相关文章

【Python报错已解决】AttributeError: ‘list‘ object has no attribute ‘text‘

【Python报错已解决】AttributeError: ‘list‘ object has no attribute ‘text‘

🎬 鸽芷咕：个人主页 🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想，就是为了理想的生活! 文章目录前言一、问题描述1.1 报错示例1.2 报错分析1.3 解决思路二、解决方法2.1 方法一：检查属性名2.2 步骤二：访问列表元素的属性三、其他解决方法四、总结前言在Python编程中，属性错误（At

阅读更多...

【ReactJS】困惑于text/babel与browser.js还是babel.js？

【ReactJS】困惑于text/babel与browser.js还是babel.js？

使用JSX 　　使用JSX，可以极大的简化React元素的创建，JSX抽象化了React.createElement()函数的使用，其语法风格类似于HTML语法风格。对比如下代码可以让你更好的理解这一点。 // 使用React.createElement()return React.createElement('div',null,'Hello',this.props.name);//使用J

阅读更多...

Android：EditText在hint字体大小和text字体大小不一致时的设置方法

Android：EditText在hint字体大小和text字体大小不一致时的设置方法

今天碰到一个需求，有一个输入框EditText，要求输入某项金额，要求在未输入文字之前，hint提示，输入文字之后显示输入的文字，要求是未输入内容时hint字体大小为14sp，输入金额之后字体大小要变成30sp。,可是EditText本身没有这个属性可以设置，怎么办呢，只有在代码中添加监听事件了： /*** 添加监听，在hint时和text时切换字体大小*/cetMoney.addTextCha

阅读更多...

Sublime Text 3搭建PHP开发环境说明

Sublime Text 3搭建PHP开发环境说明

1、设置环境变量 Windows系统环境变量path增加php.exe所在目录路径 2、创建PHP编译系统添加 PHP 的 build system，如图所示， Tools->Build System-> New Build System ：新建一个，默认的内容是：{ "shell_cmd": "make"}修改为：{ "cmd": ["php", "$file"], "file_re

阅读更多...

多字节、宽字节、兼容字节(TEXT) 相关操作汇总

多字节、宽字节、兼容字节(TEXT) 相关操作汇总

常用函数对照 ANSIUNICODE通用说明数据类型(char.h)(wchar.h)(tchar.h) charwchar_tTCHAR char *wchar_t *TCHAR* LPSTRLPWSTRLPTSTR LPCSTRLPCWSTRLPCTSTR 字符串转换atoi_wtoi_ttoi把字符串转换成整数（int）atol_wtol_ttol把字符串转换成长整型数（long）

阅读更多...

Sublime Text 3常用快键键总结

Sublime Text 3常用快键键总结

通用（General） ↑↓←→：上下左右移动光标，注意不是不是 KJHL ！Alt：调出菜单Ctrl + Shift + P：调出命令板（Command Palette）Ctrl + ` ：调出控制台编辑（Editing） Ctrl + Enter：在当前行下面新增一行然后跳至该行Ctrl + Shift + Enter：在当前行上面增加一行并跳至该行Ctrl + ←/→：进行逐词移动

阅读更多...

Kaggle刷比赛的利器，LR，LGBM，XGBoost,Keras

Kaggle刷比赛的利器，LR，LGBM，XGBoost,Keras

刷比赛利器，感谢分享的人。摘要最近打各种比赛，在这里分享一些General Model，稍微改改就能用的环境： python 3.5.2 XGBoost调参大全： http://blog.csdn.net/han_xiaoyang/article/details/52665396 XGBoost 官方API： http://xgboost.readthedocs.io/en

阅读更多...

sublime_text中如何使用快捷键打开默认浏览器

sublime_text中如何使用快捷键打开默认浏览器

原创：http://blog.csdn.net/u013383042/article/details/51058899 1、在SublimeText下打开该路径：preference - key bindings - user 2、在以下打开窗口中输入如下语句： {"keys": ["ctrl+r"],"command": "open_in_browser"} 如上图所示，”ctrl+

阅读更多...

深度学习之 keras

深度学习之 keras

注意使用keras 首先压迫安装theano 或者tensorflow,keras默认使用tensorflow 首先创建一个moel from keras.models import Sequentialmodel = Sequential() 然后添加神经层及激活函数 from keras.layers import Dense, Activationmodel.ad

阅读更多...

图像识别之目标检测keras-tensorflow 实现yolo3

图像识别之目标检测keras-tensorflow 实现yolo3

关于windows gpu环境请参考https://liuhuiyao.blog.csdn.net/article/details/109271898 keras-yolo3 地址 https://github.com/qqwweee/keras-yolo3 本人真实实现的情况是： windows 10 tensorboard 1.8.0 tensorflow-

阅读更多...