Spark Mllib数据挖掘入门九——特征提取和转换

2024-06-02 14:08

本文主要是介绍Spark Mllib数据挖掘入门九——特征提取和转换,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

与数据降维相同,特征提取和转换也是处理大数据的一种常用方法和手段,其目的是创建新的能够代替原始数据的特征集,更加合理有效地展现数据的重要内容。特征提取指的是由原始数据集在一定算法操作后创建和生成的新的特征集,这种特征集能够较好地反映原始数据集的内容,同时在结构上大大简化。
MLlib中目前使用的特征提取和转换方法主要有TF-IDF、词向量化、正则化、特征选择等。

1.TF-IDF

MLlib中使用TF-IDF算法作为文本特征提取算法。常用的关键词搜索就采用了一个非常简单的搜索算法,即本节中需要介绍的TF-IDF算法。
一般认为,一篇文章的关键词是其在文章中出现最多的词,因此关键词提取一个最简单的思路就是提取在文章中出现最多的词,即“词频”(Term Frequency, TF)的提取。
用统计语言表示,对所提取的每个词可以分配一个权重用于表示其重要性程度,一般情况下,常见词作为关键词所分配的权重较小,而不常见的词作为关键词分配的权重较大。这个权重叫做“逆文档频率”(Inverse Document Frequency, IDF),它的大小与一个词的常见程度成反比。

2.词向量化工具

现实中的语言文本问题要转化为机器学习或数据挖掘的问题,第一步肯定是要找一种方法把这些符号数字化,即要将语言文本翻译成机器能够认识的语言。
计算机在处理海量的文本信息时,一个重要的处理方法就是将文本信息向量化表示,即将每个文本中包含的词语进行向量化存储。
MLlib中为了能够处理海量的文本,采用的是一种低维向量的方法来表示词组。这样做的最大的好处是,对于选定的词组在向量空间中能够更加紧密地靠近,从而对文本特征提取和转换提供好处。

3.卡方检验

卡方检验是用途非常广泛的一种假设检验方法,它在分类资料统计推断中一般用于检验一个样本是否符合预期的一个分布。其计算原理就是,把待测定的数据分布分成几个互不相交的区域,每个区域的理论概率可知,之后查看测定结果值落在这些区域的频率,是否跟理论概率差不多。
一般来说卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定了卡方值的大小。卡方值越大,越不符合,偏差越小,卡方值就越小,越趋于符合,若量值完全相等时,卡方值就为0,表明理论值完全符合。

这篇关于Spark Mllib数据挖掘入门九——特征提取和转换的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1024179

相关文章

在java中如何将inputStream对象转换为File对象(不生成本地文件)

《在java中如何将inputStream对象转换为File对象(不生成本地文件)》:本文主要介绍在java中如何将inputStream对象转换为File对象(不生成本地文件),具有很好的参考价... 目录需求说明问题解决总结需求说明在后端中通过POI生成Excel文件流,将输出流(outputStre

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤

利用Python开发Markdown表格结构转换为Excel工具

《利用Python开发Markdown表格结构转换为Excel工具》在数据管理和文档编写过程中,我们经常使用Markdown来记录表格数据,但它没有Excel使用方便,所以本文将使用Python编写一... 目录1.完整代码2. 项目概述3. 代码解析3.1 依赖库3.2 GUI 设计3.3 解析 Mark

C语言中的数据类型强制转换

《C语言中的数据类型强制转换》:本文主要介绍C语言中的数据类型强制转换方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C语言数据类型强制转换自动转换强制转换类型总结C语言数据类型强制转换强制类型转换:是通过类型转换运算来实现的,主要的数据类型转换分为自动转换

Java实现XML与JSON的互相转换详解

《Java实现XML与JSON的互相转换详解》这篇文章主要为大家详细介绍了如何使用Java实现XML与JSON的互相转换,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. XML转jsON1.1 代码目的1.2 代码实现2. JSON转XML3. JSON转XML并输出成指定的

Java实现将Markdown转换为纯文本

《Java实现将Markdown转换为纯文本》这篇文章主要为大家详细介绍了两种在Java中实现Markdown转纯文本的主流方法,文中的示例代码讲解详细,大家可以根据需求选择适合的方案... 目录方法一:使用正则表达式(轻量级方案)方法二:使用 Flexmark-Java 库(专业方案)1. 添加依赖(Ma

Java实现将byte[]转换为File对象

《Java实现将byte[]转换为File对象》这篇文章将通过一个简单的例子为大家演示Java如何实现byte[]转换为File对象,并将其上传到外部服务器,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言1. 问题背景2. 环境准备3. 实现步骤3.1 从 URL 获取图片字节数据3.2 将字节数组

Python FastAPI入门安装使用

《PythonFastAPI入门安装使用》FastAPI是一个现代、快速的PythonWeb框架,用于构建API,它基于Python3.6+的类型提示特性,使得代码更加简洁且易于绶护,这篇文章主要介... 目录第一节:FastAPI入门一、FastAPI框架介绍什么是ASGI服务(WSGI)二、FastAP

Java中数组转换为列表的两种实现方式(超简单)

《Java中数组转换为列表的两种实现方式(超简单)》本文介绍了在Java中将数组转换为列表的两种常见方法使用Arrays.asList和Java8的StreamAPI,Arrays.asList方法简... 目录1. 使用Java Collections框架(Arrays.asList)1.1 示例代码1.

Python使用PIL库将PNG图片转换为ICO图标的示例代码

《Python使用PIL库将PNG图片转换为ICO图标的示例代码》在软件开发和网站设计中,ICO图标是一种常用的图像格式,特别适用于应用程序图标、网页收藏夹图标等场景,本文将介绍如何使用Python的... 目录引言准备工作代码解析实践操作结果展示结语引言在软件开发和网站设计中,ICO图标是一种常用的图像