[译]sklearn.feature_extraction.text.TfidfVectorizer

2024-03-30 10:18

本文主要是介绍[译]sklearn.feature_extraction.text.TfidfVectorizer,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Parameters数据类型意义
inputstring {‘filename’, ‘file’, ‘content’}待处理对象
encodingstring, ‘utf-8’ by default.解码方式
decode_error{‘strict’, ‘ignore’, ‘replace’}如果处理字节文件,而文件中包含给定encoding解码失败的字符,指示程序如何处理,默认strict,返回一个UnicodeDecodeError
strip_accents{‘ascii’, ‘unicode’, None}预处理(preprocessing)阶段取出语料中的重音符号。 ‘ascii’:速度快,只严格匹配ASCII; ’unicode‘:稍慢,匹配所有字符 None:default不做任何处理
lowercaseboolean标记之前,把所有字符转成小写
preprocessorcallable or None (default)覆盖预处理阶段,但是保留标记(tokenizing)和n-grams生成步骤
tokenizercallable or None (default)覆盖tokenization,保留预处理和n-grams生成步骤。只有在analyzer == 'word'时使用
stop_wordsstring {‘english’}, list, or None (default)‘english’:使用内置的英语停止词 list:自定义停止词 None:没有停止词
token_patternstring构成token的正则表达式,只在analyzer == 'word'时使用,默认规则选择2个或以上字母或数字字符,忽略标点,且标点作为token分隔器
ngram_rangetuple (min_n, max_n)n-grams提取中n值的上下界,界内所有n值(min_n <= n <= max_n)都会被用到
analyzerstring, {‘word’, ‘char’, ‘char_wb’} or callableWhether the feature should be made of word or character n-grams. Option ‘char_wb’ creates character n-grams only from text inside word boundaries; n-grams at the edges of words are padded with space. If a callable is passed it is used to extract the sequence of features out of the raw, unprocessed input.
max_dffloat in range [0.0, 1.0] or int, default=1.0创建词汇表时,忽略超过给定阈值的项目。 float:出现次数与语料库总数比例 int:绝对计数 如果给定vocabulary参数,则此参数忽略
min_dfspecific同上,下界
max_featuresint or None, default=Nonevocabulary如果是Not None:忽略此参数 ;如果不是None:整个语料库(corpus)按频率排列,取max_features个特征
vocabularyMapping or iterable, optionalr如果没给定参数:vocabulary由输入文档决定 Mapping:在特征矩阵中,键是terms,值是indices iterable:
binaryboolean,False(Defalt)True:所有非零计数设置为1,用于二元事件的离散概率模型
dtypetype,optionalfit_transform() or transform()返回的矩阵类型
norm‘l1’, ‘l2’ or None, optional (default=’l2’)正则化
use_idfboolean (default=True)启用inverse-document-frequency重赋权重
smooth_idfboolean (default=True)平滑idf
sublinear_tfboolean (default=False)1 + log(tf)替换tf,实现亚线性
  • Attributes

Parameter数据类型意义
vocabulary_dictA mapping of terms to feature indices.
idf_array, shape (n_features)idf向量
stop_words_set停止词
  • 方法Methods

    1. build_analyzer(self)

      返回一个callable,用于预处理和标注

    2. build_preprocessor(self)

      返回一个函数,用在标注之前对text预处理

    3. build_tokenizer(self)

      返回一个函数,将字符串切分成tokens序列

    4. decode(self, doc)

      将输入解码成unicode符。

      doc,需要decode的字符串

    5. fit(self, raw_documents[, y])

      从原始文件中学出一个字典结构的全部tokens的词汇表

    6. fit_transform(self, raw_documents[, y])

      学出字典结构词汇表,返回一个term-document矩阵。

      等价于transform之后fit,不过更高效

    7. get_feature_names(self)

      一个从特征证书指标映射到特征名字的数组

    8. get_params(self[, deep])

      得到评估量的参数

    9. get_stop_words(self)

      创建或获取有效的停止词列表

    10. inverse_transform(self, X)

      返回X中每个有非零词目的文件。(X_inv : list of arrays, len = n_samples

      X : {array, sparse matrix}, shape = [n_samples, n_features]

    11. set_params(self, **params)

      设置这个评估器的参数

    12. transform(self, raw_documents)

      将文件转换成document-term矩阵。

      用经由fit拟合的词汇表或给定的构造函数,从原始text文件中提取token数量。

      raw_documents : iterable str, unicode or file objects都可以

      X : sparse matrix, [n_samples, n_features] Document-term matrix。

这篇关于[译]sklearn.feature_extraction.text.TfidfVectorizer的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/861217

相关文章

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

【Python报错已解决】AttributeError: ‘list‘ object has no attribute ‘text‘

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、问题描述1.1 报错示例1.2 报错分析1.3 解决思路 二、解决方法2.1 方法一:检查属性名2.2 步骤二:访问列表元素的属性 三、其他解决方法四、总结 前言 在Python编程中,属性错误(At

【ReactJS】困惑于text/babel与browser.js还是babel.js?

使用JSX   使用JSX,可以极大的简化React元素的创建,JSX抽象化了React.createElement()函数的使用,其语法风格类似于HTML语法风格。对比如下代码可以让你更好的理解这一点。 // 使用React.createElement()return React.createElement('div',null,'Hello',this.props.name);//使用J

Android:EditText在hint字体大小和text字体大小不一致时的设置方法

今天碰到一个需求,有一个输入框EditText,要求输入某项金额,要求在未输入文字之前,hint提示,输入文字之后显示输入的文字,要求是未输入内容时hint字体大小为14sp,输入金额之后字体大小要变成30sp。,可是EditText本身没有这个属性可以设置,怎么办呢,只有在代码中添加监听事件了: /*** 添加监听,在hint时和text时切换字体大小*/cetMoney.addTextCha

【机器学习 sklearn】模型正则化L1-Lasso,L2-Ridge

#coding:utf-8from __future__ import divisionimport sysreload(sys)sys.setdefaultencoding('utf-8')import timestart_time = time.time()import pandas as pd# 输入训练样本的特征以及目标值,分别存储在变量X_train与y_train之中。

【机器学习 sklearn】特征筛选feature_selection

特征筛选更加侧重于寻找那些对模型的性能提升较大的少量特征。 继续沿用Titannic数据集,这次试图通过特征刷选来寻找最佳的特征组合,并且达到提高预测准确性的目标。 #coding:utf-8from __future__ import divisionimport sysreload(sys)sys.setdefaultencoding('utf-8')import timest

Sublime Text 3搭建PHP开发环境说明

1、设置环境变量 Windows系统环境变量path增加php.exe所在目录路径 2、创建PHP编译系统 添加 PHP 的 build system,如图所示, Tools->Build System-> New Build System : 新建一个,默认的内容是:{ "shell_cmd": "make"}修改为:{ "cmd": ["php", "$file"], "file_re

多字节、宽字节、兼容字节(TEXT) 相关操作汇总

常用函数对照 ANSIUNICODE通用说明数据类型(char.h)(wchar.h)(tchar.h) charwchar_tTCHAR char *wchar_t *TCHAR* LPSTRLPWSTRLPTSTR LPCSTRLPCWSTRLPCTSTR     字符串转换atoi_wtoi_ttoi把字符串转换成整数(int)atol_wtol_ttol把字符串转换成长整型数(long)

Sublime Text 3常用快键键总结

通用(General) ↑↓←→:上下左右移动光标,注意不是不是 KJHL !Alt:调出菜单Ctrl + Shift + P:调出命令板(Command Palette)Ctrl + ` :调出控制台 编辑(Editing) Ctrl + Enter:在当前行下面新增一行然后跳至该行Ctrl + Shift + Enter:在当前行上面增加一行并跳至该行Ctrl + ←/→:进行逐词移动

结合sklearn说一下特征选择

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解 拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自己最熟悉或者