spark CountVectorizer+IDF提取中文关键词(scala)

2024-08-28 20:18

本文主要是介绍spark CountVectorizer+IDF提取中文关键词(scala),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在提取关键词中,TF-IDF是比较常用的算法,spark mlib中也提供了TF以及IDF的方法,但是由于spark提供的TF算法是不可逆的,即无法获取TF的结果对应的原句子的文字,所以需要采用 CountVectorizer。提取关键词的过程如下:

1、中文分词以及去掉停用词:

中文分词使用的是ansj:maven如下:

    <!--ansj--><dependency><groupId>org.ansj</groupId><artifactId>ansj_seg</artifactId><version>5.1.3</version></dependency>

分词代码(其中数据有id,content两列,id为文档id,content为文档内容):

        val filter = new StopRecognition();//val stopWords = List("/","·", ";",""",".","%",":","]","[","-");//过滤停用词val stopWords = com.lina.utils.StopWords.getStopWords("E:\\\\scalaworkspace\\\\stopword.txt");stopWords.foreach((a:String)=>filter.insertStopWords(a));val cgFun = udf((a:String)=>{ToAnalysis.parse(a.toString.replaceAll(",","")).recognition(filter).toStringWithOutNature("/").split("/", 0);});val pplDf = sqlResDf.withColumn("content",cgFun(col("content")));

2、CountVectorizer算法输出词频向量(如果只需要向量,不需要对应的词,也可以使用TF算法):

        val cvModel: CountVectorizerModel = new CountVectorizer().setInputCol("content").setOutputCol("feature").setVocabSize(10000) //向量长度.setMinDF(2) //词汇出现次数必须大于等于2.fit(pplDf)val cvDf = cvModel.transform(pplDf);

3、使用IDF算法输出逆词频向量:

        val idf = new IDF().setInputCol("feature").setOutputCol("features");val idfModel = idf.fit(cvDf);val idfDf = idfModel.transform(cvDf).drop("content").drop("feature")idfDf.show(false);

4、通过结果向量解析出关键词,注意cvModel.vocabulary中存储有向量索引与原句子的词的对应关系:

        val voc= cvModel.vocabulary;val getKeyWordsFun = udf((fea:Vector)=>{var arrW = ArrayBuffer[String]();var arrV = ArrayBuffer[Double]();fea.foreachActive((index:Int,value:Double)=>{arrW += voc(index);arrV += value;});(arrW zip arrV).toList.sortBy(-_._2).take(25).toMap.map(_._1).toArray;});val keyWordsDf = idfDf.withColumn("keywords",getKeyWordsFun(col("features"))).drop("features");

 

这篇关于spark CountVectorizer+IDF提取中文关键词(scala)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1115774

相关文章

详解C#如何提取PDF文档中的图片

《详解C#如何提取PDF文档中的图片》提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使用,下面我们就来看看如何使用C#通过代码从PDF文档中提取图片吧... 当 PDF 文件中包含有价值的图片,如艺术画作、设计素材、报告图表等,提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使

Python实现常用文本内容提取

《Python实现常用文本内容提取》在日常工作和学习中,我们经常需要从PDF、Word文档中提取文本,本文将介绍如何使用Python编写一个文本内容提取工具,有需要的小伙伴可以参考下... 目录一、引言二、文本内容提取的原理三、文本内容提取的设计四、文本内容提取的实现五、完整代码示例一、引言在日常工作和学

C++字符串提取和分割的多种方法

《C++字符串提取和分割的多种方法》在C++编程中,字符串处理是一个常见的任务,尤其是在需要从字符串中提取特定数据时,本文将详细探讨如何使用C++标准库中的工具来提取和分割字符串,并分析不同方法的适用... 目录1. 字符串提取的基本方法1.1 使用 std::istringstream 和 >> 操作符示

基于Python开发批量提取Excel图片的小工具

《基于Python开发批量提取Excel图片的小工具》这篇文章主要为大家详细介绍了如何使用Python中的openpyxl库开发一个小工具,可以实现批量提取Excel图片,有需要的小伙伴可以参考一下... 目前有一个需求,就是批量读取当前目录下所有文件夹里的Excel文件,去获取出Excel文件中的图片,并

详解如何使用Python提取视频文件中的音频

《详解如何使用Python提取视频文件中的音频》在多媒体处理中,有时我们需要从视频文件中提取音频,本文为大家整理了几种使用Python编程语言提取视频文件中的音频的方法,大家可以根据需要进行选择... 目录引言代码部分方法扩展引言在多媒体处理中,有时我们需要从视频文件中提取音频,以便进一步处理或分析。本文

一文教你解决Python不支持中文路径的问题

《一文教你解决Python不支持中文路径的问题》Python是一种广泛使用的高级编程语言,然而在处理包含中文字符的文件路径时,Python有时会表现出一些不友好的行为,下面小编就来为大家介绍一下具体的... 目录问题背景解决方案1. 设置正确的文件编码2. 使用pathlib模块3. 转换路径为Unicod

基于Python实现一个PDF特殊字体提取工具

《基于Python实现一个PDF特殊字体提取工具》在PDF文档处理场景中,我们常常需要针对特定格式的文本内容进行提取分析,本文介绍的PDF特殊字体提取器是一款基于Python开发的桌面应用程序感兴趣的... 目录一、应用背景与功能概述二、技术架构与核心组件2.1 技术选型2.2 系统架构三、核心功能实现解析

Linux使用cut进行文本提取的操作方法

《Linux使用cut进行文本提取的操作方法》Linux中的cut命令是一个命令行实用程序,用于从文件或标准输入中提取文本行的部分,本文给大家介绍了Linux使用cut进行文本提取的操作方法,文中有详... 目录简介基础语法常用选项范围选择示例用法-f:字段选择-d:分隔符-c:字符选择-b:字节选择--c

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

Java下载文件中文文件名乱码的解决方案(文件名包含很多%)

《Java下载文件中文文件名乱码的解决方案(文件名包含很多%)》Java下载文件时,文件名中文乱码问题通常是由于编码不正确导致的,使用`URLEncoder.encode(filepath,UTF-8... 目录Java下载文件中文文件名乱码问题一般情况下,大家都是这样为了解决这个问题最终解决总结Java下