CountVectorizer与TfidfVectorizer 对文本特征的特征抽取

本文主要是介绍CountVectorizer与TfidfVectorizer 对文本特征的特征抽取，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

CountVectorizer: 只考虑每种词汇在该条训练文本中出现的频率

TfidfVectorizer : 除了考量每种词汇在该条训练文本中出现的频率,同时包含这个词汇的文本的条数的倒数.

对新闻文本数据使用CountVectorizer与TfidfVectorizer 抽取特征，使用朴素贝叶斯进行分类。

# -*- coding:utf-8 -*-
if __name__ == '__main__':print "hello"# 从sklearn.datasets里导入20类新闻文本数据抓取器。from sklearn.datasets import fetch_20newsgroups# 从互联网上即时下载新闻样本,subset='all'参数代表下载全部近2万条文本存储在变量news中。news = fetch_20newsgroups(subset='all',download_if_missing=False)# news = fetch_20newsgroups(subset='all')# 从sklearn.cross_validation导入train_test_split模块用于分割数据集。from sklearn.model_selection import train_test_split# 对news中的数据data进行分割，25%的文本用作测试集；75%作为训练集。X_train, X_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25, random_state=33)# 从sklearn.feature_extraction.text里导入CountVectorizerfrom sklearn.feature_extraction.text import CountVectorizer# 采用默认的配置对CountVectorizer进行初始化（默认配置不去除英文停用词），并且赋值给变量count_vec。count_vec = CountVectorizer()# 只使用词频统计的方式将原始训练和测试文本转化为特征向量。X_count_train = count_vec.fit_transform(X_train)X_count_test = count_vec.transform(X_test)# 从sklearn.naive_bayes里导入朴素贝叶斯分类器。from sklearn.naive_bayes import MultinomialNB# 使用默认的配置对分类器进行初始化。先验概率假设为多项式mnb_count = MultinomialNB()# 使用朴素贝叶斯分类器，对CountVectorizer（不去除停用词）后的训练样本进行参数学习。mnb_count.fit(X_count_train, y_train)# 输出模型准确性结果。print 'The accuracy of classifying 20newsgroups using Naive Bayes (CountVectorizer without filtering stopwords):', mnb_count.score(X_count_test, y_test)# 将分类预测的结果存储在变量y_count_predict中。y_count_predict = mnb_count.predict(X_count_test)# 从sklearn.metrics 导入 classification_report。from sklearn.metrics import classification_report# 输出更加详细的其他评价分类性能的指标。print classification_report(y_test, y_count_predict, target_names = news.target_names)# 从sklearn.feature_extraction.text里分别导入TfidfVectorizer。from sklearn.feature_extraction.text import TfidfVectorizer# 采用默认的配置对TfidfVectorizer进行初始化（默认配置不去除英文停用词），并且赋值给变量tfidf_vec。tfidf_vec = TfidfVectorizer()# 使用tfidf的方式，将原始训练和测试文本转化为特征向量。X_tfidf_train = tfidf_vec.fit_transform(X_train)X_tfidf_test = tfidf_vec.transform(X_test)# 依然使用默认配置的朴素贝叶斯分类器，在相同的训练和测试数据上，对新的特征量化方式进行性能评估。mnb_tfidf = MultinomialNB()mnb_tfidf.fit(X_tfidf_train, y_train)print 'The accuracy of classifying 20newsgroups with Naive Bayes (TfidfVectorizer without filtering stopwords):', mnb_tfidf.score(X_tfidf_test, y_test)y_tfidf_predict = mnb_tfidf.predict(X_tfidf_test)print classification_report(y_test, y_tfidf_predict, target_names=news.target_names)

这篇关于CountVectorizer与TfidfVectorizer 对文本特征的特征抽取的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！